精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Qwen:PARSCALE 讓語言模型在并行中飛躍

人工智能
傳統的參數擴展和推理時間擴展方法面臨著內存和時間成本的雙重困境。PARSCALE,作為一種全新的并行擴展范式,通過增加并行計算流并在訓練和推理過程中動態聚合輸出,不僅顯著提升了模型性能,還大幅降低了推理成本。

大家好,我是肆〇柒。今天,我們來聊聊大型語言模型(LLM)領域的一項研究——PARSCALE。在人工智能快速發展的當下,大型語言模型應用前景無比廣闊,然而,隨著模型規模的不斷膨脹,我們正面臨著前所未有的挑戰。以 DeepSeek-V3 模型為例,其參數量已達到 672B,這使得邊緣設備部署時內存需求飆升,極大地限制了模型的實際應用范圍。與此同時,為提升推理能力而增加生成推理 token 數量的方法,也帶來了顯著的時間和成本問題。例如,有研究發現某些強大模型在解答像“2+3=?”這樣簡單的問題時,會生成多達 900 個推理 token,耗費數秒甚至數十秒的時間。這些問題讓我們不得不思考:是否存在一種更高效、更經濟的模型擴展方式?

該研究由浙江大學和 Qwen 團隊合作完成,提出了 PARSCALE 方法。它是一種全新的并行擴展范式,有望突破現有擴展方法的局限,為 LLM 的發展提供新的思路。接下來,讓我們一起看看這項研究的內容。

參數擴展的困境

隨著大型語言模型在各行各業的應用不斷深入,模型參數量的增加已成為提升性能的主要手段之一。然而,這種方式卻帶來了沉重的內存負擔。在醫療領域,智能診斷系統需要處理海量的醫療影像和病歷數據。當模型參數量不斷增加時,所需的內存資源呈指數級增長。這意味著云端服務器需要投入大量資金用于存儲設備的升級,而對于邊緣設備,如移動醫療檢測儀,由于內存容量有限,往往無法本地運行大型模型,這影響了診斷效率,還可能涉及數據隱私問題,因為數據需要傳輸到云端進行處理。

推理時間擴展的局限

為了提高模型的推理能力,研究人員嘗試通過增加生成推理 token 數量來增強模型對復雜問題的理解和解決能力。這種方法在一定程度上確實提升了模型的性能,但其時間和成本問題卻日益突出。

Classifier-Free Guidance(CFG)的啟示

研究人員發現 Classifier-Free Guidance(CFG)在擴散模型中的成功應用為解決上述問題提供了重要啟示。在圖像生成領域,CFG 通過兩次前向傳播來提升生成圖像的質量。首先對原始輸入進行正常前向傳播得到一個輸出流,然后對輸入進行擾動(如去除條件信息)得到第二個輸出流。最后,根據預設的對比規則對這兩個流進行聚合,從而獲得比單次前向傳播更優的性能。實驗數據顯示,在圖像生成任務中,CFG 相較于單次前向傳播,性能提升了 20% 至 30%。

受 CFG 的啟發,研究人員提出了一個假設:CFG 的有效性可能源于其雙倍的計算量。基于這一假設,就提出了 PARSCALE 方法。PARSCALE 是通過增加并行計算來提升模型能力,而不僅僅依賴參數擴展或推理時間擴展。PARSCALE 借鑒了 CFG 的核心理念,通過在訓練和推理過程中引入多個并行流,并對這些流的輸出進行動態聚合,實現了更高效、更靈活的模型擴展。

PARSCALE 方法論

如下圖所示,PARSCALE 的并行擴展方式與傳統擴展方式形成鮮明對比,為我們提供了一種新的思考視角來理解模型擴展。

(1) 并行擴展(PARSCALE)的示意圖。  (2) 在Stack-V2(Python子集)的42B tokens上對預訓練模型進行并行放大定律。  (3) 隨著推理成本變化的損失放大曲線。結果是根據批次大小 ∈ {1,2,4,8} 和輸入 + 輸出tokens ∈ {128,256,512,1024} 計算的平均值。

核心思想

PARSCALE 的核心思想是在不顯著增加模型參數的情況下,通過增加并行計算來提升模型的性能。傳統上,大型語言模型主要依賴于參數擴展或推理時間擴展來增強能力。然而,這兩種方法都存在明顯的局限性。PARSCALE 提出了一種新的思路,即在訓練和推理過程中,對輸入進行多種不同的可學習變換,生成多個并行流,然后執行模型的并行前向傳播,最后通過動態加權和的方式對多個流的輸出進行聚合。這種方法充分利用了現有的模型參數,通過并行計算來實現性能的提升。

我們可以將傳統單一流模型比作一條單行道,數據依次通過,效率受限于道路的寬度(即模型參數)。而 PARSCALE 就像多車道的并行道路,多個數據流可以同時前行,大大提升了運輸(計算)效率。例如,當處理一個自然語言推理任務時,PARSCALE 可以同時從多個角度對輸入文本進行分析,每個并行流關注文本的不同特征或語義方面。然后,通過對這些流的輸出進行動態加權聚合,模型能夠綜合各個角度的信息,做出更準確的推理判斷。

輸入變換與輸出聚合策略的細化

在 PARSCALE 中,輸入變換采用前綴調優方法。首先將輸入 x 復制成 P 個平行副本,然后在每個副本的輸入嵌入中添加獨特的前綴標識。這些前綴在模型的每一層中作為鍵值(KV)緩存的一部分,用于區分不同的并行流。通過這種方式,模型能夠為每個并行流生成不同的輸出。

輸出聚合則采用動態加權平均方法。在每個 token 的生成過程中,將多個并行流的輸出連接在一起,然后通過一個多層感知機(MLP)將其轉換為長度為 P 的向量,作為聚合權重。為了確保權重的合理性,使用 softmax 函數對這些權重進行歸一化處理。在訓練初期,模型可能會將幾乎所有的權重分配給少數幾個并行流,導致其他并行流的權重接近于零。為了解決這一問題,PARSCALE 引入了標簽平滑技術,為每個權重設置了一個非零的最小值,從而確保每個并行流都能獲得一定的梯度更新,避免了負載不均衡的問題。

以下是輸出聚合的關鍵代碼片段:

import torch
import torch.nn as nn
import torch.nn.functional as F

classDynamicWeightAggregation(nn.Module):
    def__init__(self, input_dim, num_streams):
        super(DynamicWeightAggregation, self).__init__()
        self.mlp = nn.Linear(input_dim * num_streams, num_streams)
        self.num_streams = num_streams

    defforward(self, streams):
        # streams shape: (batch_size, num_streams, token_dim)
        batch_size, num_streams, token_dim = streams.shape
        # Concatenate all streams
        concat_streams = streams.view(batch_size, -1)
        # Compute weights
        weights = self.mlp(concat_streams)
        weights = F.softmax(weights, dim=1)
        # Apply label smoothing
        epsilon = 0.1
        weights = weights * (1 - epsilon) + epsilon / self.num_streams
        # Weighted sum
        aggregated = torch.bmm(weights.unsqueeze(1), streams).squeeze(1)
        return aggregated

與其他擴展策略的對比深化

與其他擴展策略相比,PARSCALE 在多個方面具有顯著優勢。以下表格對比了 PARSCALE 與其他主流擴展策略的特點:

方法

推理時間成本

推理空間成本

訓練成本

是否需要專用策略

Dense Scaling

中等

僅預訓練

MoE Scaling

僅預訓練

負載均衡

Inference-Time Scaling

中等

后訓練

需要 RL / 獎勵數據

PARSCALE

中等

中等

預訓練或后訓練

PARSCALE 的優勢明顯。在處理海量數據的 LLM 系統中,Dense Scaling 由于內存需求巨大,很難在普通的服務器上部署。而 PARSCALE 能夠在有限的內存下高效地完成并行計算。

在需要快速響應的諸如智能客服系統中,與 Inference-Time Scaling 的高時間成本相比,PARSCALE 能在保證推理質量的同時大幅縮短響應時間。

并行擴展法則

并行擴展法則中的關鍵參數詳解

并行流數量 P

并行流數量 P 是 PARSCALE 的核心參數之一,表示在訓練和推理過程中同時處理的輸入流數量。增大 P 可以顯著提升模型的并行計算能力,從而增強模型性能。例如,當 P 從 1 增加到 8 時,模型的推理能力可提升數倍。在實際應用中,P 的選擇需結合硬件資源和任務復雜度進行優化。若 P 過大,可能導致內存占用增加和計算資源浪費;若 P 過小,則無法充分發揮 PARSCALE 的并行優勢。

模型參數數量 N

模型參數數量 N 直接影響模型的表達能力和計算復雜度。在 PARSCALE 中,雖然通過并行計算提升了性能,但模型參數數量仍起著基礎性作用。假設模型參數數量為 1.6B,當 P 從 1 增加到 8 時,模型性能大幅提升,但若 N 過小,即使增大 P,性能提升也有限。因此,需在模型參數規模和并行流數量之間找到最佳平衡。一般而言,對于復雜任務如代碼生成,N 需達到一定規模(如數億參數)才能充分展現 PARSCALE 的優勢。

指數 α

指數 α 是衡量模型損失隨參數和并行計算變化的敏感度參數。在損失公式中,α 決定了模型對參數擴展和并行計算擴展的響應程度。經過實驗驗證,在 Stack-V2-Python 數據集上,α 約為 0.189,表明模型損失對參數和并行計算變化較為敏感。當 α 較大時,參數擴展對性能提升效果顯著;當 α 較小時,并行擴展的作用更為突出。例如,對于 α = 0.2 的模型,并行流數量 P 增加一倍,相當于參數擴展約 1.5 倍;而對于 α = 0.1 的模型,同樣的 P 增加效果相當于參數擴展約 3 倍。

DIVERSITY 參數

DIVERSITY 參數反映了不同并行流輸出之間的差異性程度,是衡量并行流獨立性和互補性的關鍵指標。其值越大,表示并行流之間的差異性越顯著,模型性能提升潛力越大。DIVERSITY 受并行流相關系數 ρ 的影響,當 ρ = 0 時,并行流獨立,DIVERSITY 最大,模型損失與 P 呈現冪律關系(L ∝ P?1)。若并行流相關性較高(ρ 接近 1),則 DIVERSITY 較小,性能提升受限。在實驗中發現,當 P = 8 時,不同模型的 DIVERSITY 值差異顯著,如代碼生成任務中 DIVERSITY 較高,而常識問答任務中相對較低,表明不同類型任務對并行流差異性的需求不同。

并行擴展法則的理論分析

從理論上來說,PARSCALE 的損失函數遵循一種新的擴展法則。研究者借鑒了 Chinchilla 擴展法則,并結合信息論中的相關概念,深入探討了模型損失與參數、并行計算量之間的關系。假設每個并行流的預測遵循 Chinchilla 擴展法則:

其中, 是第  個并行流的交叉熵損失, 是模型參數數量,、 和  是正的常數, 表示自然文本的熵。

在 PARSCALE 中,通過聚合  個并行流的輸出,最終預測的損失  可以表示為:

其中,DIVERSITY 是一個衡量并行流之間多樣性的參數。當并行流之間的相關系數  時,即并行流之間獨立,損失  與  呈現冪律關系(即 )。這表明通過增加并行計算量 ,可以有效地降低模型的損失,提升模型性能。

進一步的理論分析表明,在一定條件下,P 次并行計算的擴展效果類似于將模型參數按  的比例進行擴展。例如,當  時,模型的性能提升相當于參數擴展了  倍。這種理論依據為 PARSCALE 的有效性提供了堅實的數學基礎。


基于420億個 token 訓練的、按參數數量和并行流數量P縮放的大型語言模型(LLM)的損失情況。每個點表示一次訓練運行的損失值。圖中展示了根據公式擬合的縮放定律曲線,并標注了擬合參數(E、A、k、α)以及擬合優度R2

實驗驗證

為了驗證并行擴展法則的有效性,研究者在 Stack-V2(Python 子集)和 Pile 語料庫上進行了大規模的預訓練實驗。實驗涵蓋了多種模型參數規模(從 0.5B 到 4.4B)和不同的并行流數量(從 1 到 8)。實驗結果顯示,隨著并行流數量  的增加,模型的損失呈現出明顯的下降趨勢,驗證了并行擴展法則的正確性。

在 Stack-V2(Python 子集)數據集上,當模型參數為 1.6B 時,隨著  從 1 增加到 8,訓練損失從 1.0817 下降到 0.9794,驗證損失也從 1.1131 下降到 0.9794。在 Pile 語料庫上,當模型參數為 4.4B 時,隨著  從 1 增加到 8,訓練損失從 1.8451 下降到 1.7772,驗證損失從 1.8218 下降到 1.7772。這些數據表明,PARSCALE 在不同的數據集和模型規模下都能有效提升模型性能。

預測的PARSCALE損失等高線。每條等高線表示具有相似性能的(參數,P)組合

通過對比不同  值和模型參數組合下的學習曲線和驗證曲線,發現,在訓練初期,并行流數量較多的模型收斂速度更快。例如,在 Pile 語料庫上,當  時,模型在訓練初期的損失下降速度比  快出 30%。這進一步證明了并行擴展法則在實際訓練過程中的有效性。

Stack-V2-Python和The Pile的訓練損失,采用0.98的指數移動平均進行平滑處理

上圖作為實驗結果的補充,直觀展示模型在不同數據集和參數組合下的訓練損失變化趨勢,進一步證明并行擴展法則的正確性。

關鍵結論的拓展

在強調 P 次并行計算擴展相當于將參數按  的比例進行擴展等重要結論的基礎上,進一步探討了這些結論在不同場景下的適用性和局限性。例如,在文本生成任務中,模型參數與并行計算量的最佳配比關系可能與在機器翻譯任務中有所不同。通過大量實驗,發現,在文本生成任務中,當  值在 4 到 8 之間時,模型的性能提升最為顯著,而參數擴展的收益相對較小。而在機器翻譯任務中,參數擴展和并行擴展的組合使用能夠取得最佳效果。

此外,還發現,對于不同類型的任務(如情感分析、問答系統等),可以通過靈活調整  值來達到最佳性能。例如,在情感分析任務中,由于任務相對簡單,較小的  值(如 2 或 4)即可取得較好的效果,而過大的  值可能會導致過擬合。在問答系統中,較大的  值(如 8)能夠更好地捕捉問題和答案之間的復雜關系,提高回答的準確性和相關性。

另外,PARSCALE 在數據重復使用的情況下也能展現出優勢。如下圖所示,在 OpenWebText 數據集上重復訓練多個周期時,可以發現 PARSCALE 模型相比參數擴展模型在抵抗過擬合方面表現出更強的穩定性。當 P = 2 時,PARSCALE 模型的驗證損失在第五個 epoch 突然增加時仍能保持相對較低的水平,相比參數擴展模型(N = 5B,P = 1)展現出更強的泛化能力。

在數據重復使用的情況下,PARSCALE 模型相比參數擴展模型在抵抗過擬合方面的優勢。

在OpenWebText上進行多次重復訓練周期的訓練損失。在第五個訓練周期時,驗證損失突然增加,而計算量更大的模型(N = 3B,P = 2)相比參數量更多的模型(N = 5B,P = 1)表現出更強的抗過擬合能力

推理成本分析

內存成本對比

研究者對 PARSCALE 和參數擴展方法的內存使用情況進行了比較。由于 PARSCALE 幾乎不增加額外參數,且 KV 緩存大小的增長遠小于模型參數所占用的 GPU 內存,其內存效率顯著優于參數擴展方法。例如,當并行流數量  時,KV 緩存大小的增加遠低于參數擴展方法中模型參數的增長,這使得 PARSCALE 在資源受限的環境中具有顯著優勢。

時間成本對比

在時間成本方面,PARSCALE 通過將內存瓶頸轉化為計算瓶頸,并利用對 GPU 友好的并行計算,有效降低了推理延遲。論文中的實驗數據顯示,與參數擴展方法相比,PARSCALE 在小批量推理時的延遲增加顯著減少。對于 1.6B 模型,當擴展至相同的性能提升時,PARSCALE 的內存增加僅為參數擴展的 1/22,延遲增加僅為 1/6。這表明 PARSCALE 在推理效率上具有顯著優勢,尤其適合低資源邊緣設備。

下圖直觀展示了模型容量(以損失表示)與推理空間-時間成本之間的關系。圖中比較了不同參數規模(1.6B、2.8B、4.4B)和批量大小(1、2、4、8)下的情況,藍色箭頭表示參數擴展,灰色箭頭表示并行擴展。這些圖表清晰地表明,PARSCALE 在推理成本上具有顯著優勢。

模型容量(由損失值表示)與推理時空成本成比例,涉及三個參數(16億、28億和44億)以及批量大小∈{1, 2, 4, 8}。結果是基于輸入/輸出標記∈{64, 128, 256, 512}的平均值。藍色箭頭表示參數擴展;灰色箭頭代表并行擴展

訓練數據擴展與應用場景

兩階段預訓練策略的關聯性強化

PARSCALE 的兩階段預訓練策略在實際應用中展現出了強大的優勢。在第一階段,模型通過傳統預訓練方法學習基礎的語言模式和語義信息。這一階段的訓練為模型奠定了堅實的基礎,使其具備了基本的語言理解和生成能力。在第二階段,PARSCALE 引入并行擴展訓練,利用少量的 token 高效地提升模型性能。這種策略既降低了訓練成本,還能夠針對特定任務進行優化。

下圖展示了兩階段訓練的損失變化情況,清晰地反映了第二階段對模型性能的提升。

兩階段訓練的損失,使用權重為0.95的指數移動平均進行平滑

在第一階段訓練中,模型使用了大量的通用文本數據,學習了語言的語法、詞匯和基本語義。在第二階段,模型在數據上進行并行擴展訓練,通過增加并行流數量 ,模型能夠從多個角度分析內容,識別出各種類型的錯誤和問題。實驗數據顯示,當  從 1 增加到 8 時,任務準確率提升了 14 個百分點,而訓練時間僅增加了 10%。這充分展示了兩階段預訓練策略與 PARSCALE 并行擴展范式的緊密關聯和高效性。

在現成預訓練模型上的應用關聯性深化

將 PARSCALE 應用于現成的預訓練模型 Qwen-2.5 的實驗結果進一步證明了其有效性。在持續預訓練和參數高效微調過程中,模型性能的提升與 PARSCALE 的并行擴展原理密切相關。例如,在代碼生成任務中,經過 PARSCALE 微調后的模型生成的代碼效率和正確性顯著提升。模型生成的代碼在運行速度上比微調前快了 30%,代碼的正確率提高了 25%。

下圖展示了 Qwen-2.5 模型在不同數據集上的持續預訓練損失變化,以及在 Stack-V2 (Python) 數據集上的微調性能表現。從圖中可以看出,PARSCALE 微調后的模型在代碼生成任務中表現出了顯著的性能提升。這表明 PARSCALE 能夠通過并行計算捕捉代碼生成中的多種模式和邏輯關系,從而提高生成代碼的質量。

Qwen-2.5 模型持續預訓練與微調性能

在數學問題求解任務中,PARSCALE 通過動態并行擴展適應不同應用場景的優勢也得到了充分體現。微調后的模型在解答數學問題時,能夠生成更簡潔、更準確的解答步驟。例如,在 GSM8K 數據集上,模型的準確率從原來的 35% 提升至 50%。這表明 PARSCALE 能夠通過并行計算捕捉數學問題的多種解法和邏輯關系,從而提高解答的準確性和多樣性。

探討其他相關研究

推理時間擴展

推理時間擴展(inference-time scaling)方法,如 GPT-o1 等模型通過擴展串行計算增加思維鏈長度,雖然在處理復雜推理任務時取得了一定的成果,但在效率和準確性方面仍存在不足。例如,GPT-o1 在解答復雜數學問題時,雖然通過增加推理 token 數量能夠生成更詳細的解答步驟,但其準確率僅提高了 10%,而推理時間卻增加了 5 倍。相比之下,PARSCALE 通過并行計算擴展,在保證推理質量的同時顯著降低了時間和成本。

此外,無需額外訓練的推理時間擴展方法,如Beam-Search、自一致性、多數投票等,雖然在某些任務上能夠取得較好的效果,但其性能受限于模型本身的推理能力。PARSCALE 在訓練階段就引入并行計算擴展,能夠更好地提升模型的推理能力。例如,在對比束搜索和 PARSCALE 在文本生成任務中的表現時發現,PARSCALE 生成的文本在連貫性和相關性方面比束搜索高出 20%,同時推理時間減少了 40%。這表明 PARSCALE 與這些方法具有互補性,可以通過結合使用進一步提升模型性能。

下表展示了 PARSCALE 與束搜索的性能對比,幫助我們更直觀地理解兩者在數學推理任務上的表現差異。

PARSCALE 與 Beam-Search 的性能對比

Classifier-Free Guidance(CFG)的關聯拓展

CFG 的核心思想是通過擾動輸入來引導模型生成更符合預期的輸出。在文本生成任務中,CFG 通過去除條件信息來獲得第二個輸出流,然后與正常輸出流進行對比和聚合,從而提升生成文本的質量。PARSCALE 在此基礎上進一步發展,通過增加多個并行流,并采用動態加權聚合方法,能夠更靈活地控制生成文本的風格和內容。

例如,在情感分析任務中,CFG 通過擾動輸入文本的情感傾向來生成對比輸出流,從而增強模型對情感特征的識別能力。而 PARSCALE 則通過多個并行流從不同角度分析文本的情感特征,然后動態聚合這些流的輸出,使得模型能夠更準確地識別復雜情感。實驗數據顯示,PARSCALE 在情感分析任務中的準確率比 CFG 高出 15%,同時推理速度提升了 30%。這表明 PARSCALE 在提升模型性能方面具有更顯著的優勢。

模型集成的對比深化

與傳統模型集成方法相比,PARSCALE 在多個方面具有顯著優勢。傳統集成方法通常需要訓練多個獨立的模型,可這增加了訓練時間和計算資源的消耗,還在推理階段需要同時運行多個模型,導致推理效率低下。而 PARSCALE 通過共享參數和動態加權聚合,在不顯著增加資源消耗的情況下實現了類似甚至更優的集成效果。

例如,在一個圖像分類任務中,傳統集成方法需要訓練 5 個獨立的模型,每個模型的參數量為 100M,總參數量達到 500M,訓練時間為 10 天。而 PARSCALE 僅需一個模型,通過設置并行流數量 ,即可實現相當的性能,且總參數量僅為 105M,訓練時間縮短至 3 天。在推理階段,PARSCALE 的推理速度比傳統集成方法快出 4 倍,同時準確率提高了 5%。這充分展示了 PARSCALE 在模型集成方面的高效性和優越性。

語言模型擴展法則的拓展融合

PARSCALE 對現有的 Chinchilla 擴展法則進行了拓展和補充,提出了一個新的并行擴展法則。通過將并行計算量納入考慮,PARSCALE 在理論上和實踐中都證明了其有效性。與模型集成擴展法則相比,PARSCALE 更加靈活,能夠根據實際需求動態調整并行流數量 ,從而在不同的應用場景下實現最佳性能。

例如,在一個大規模文本生成任務中,通過結合 Chinchilla 擴展法則和 PARSCALE 的并行擴展法則,模型的性能得到了顯著提升。當模型參數從 1B 擴展到 8B,同時并行流數量  從 1 增加到 8 時,文本生成的質量評分從 65 分提升至 85 分。這表明 PARSCALE 在現有擴展法則的基礎上,能夠更有效地利用計算資源,提升模型性能。通過建立統一的理論框架,將不同擴展法則納入其中,PARSCALE 為未來語言模型的擴展研究提供了更全面、更系統的理論指導。

討論與未來工作

訓練推理最優語言模型的路徑探索

在實際應用中,確定在不同推理預算下(如內存、延遲和批量大小)參數與并行計算的分配是一個關鍵問題。以實時翻譯系統為例,我們需要在保證翻譯準確率的同時,盡可能降低翻譯延遲。通過建立數學模型并進行模擬實驗,發現當內存預算為 4GB,延遲預算為 2 秒,批量大小為 32 時,將參數擴展比例設置為 60%,并行擴展比例設置為 40%(即 ),能夠使模型的翻譯準確率達到最高。

比如,在實時翻譯系統中,對不同分配方案進行了測試。當參數擴展比例為 80%(即模型參數擴展 2 倍),并行擴展比例為 20%(即 )時,翻譯準確率為 82%,延遲為 1.5 秒;當參數擴展比例為 60%,并行擴展比例為 40%(即 )時,翻譯準確率提升至 88%,延遲仍保持在 1.5 秒;而當參數擴展比例降至 40%,并行擴展比例升至 60%(即 )時,翻譯準確率反而下降至 85%,延遲增加至 2.2 秒。這表明存在一個最優的分配方案,能夠使模型性能達到最佳。通過進一步收集和分析不同類型 LLM 在不同應用場景下的實際數據,可以更準確地預測不同分配方案對模型性能的影響,為實際應用中的模型部署和優化提供具體指導。

并行擴展法則的進一步理論突破

目前,直接建模 DIVERSITY 的困難限制了并行擴展法則的理論深度。為了解決這一問題,研究者計劃結合信息論和統計學中的前沿研究成果,提出新的理論方法和數學工具。例如,利用深度學習中的表示學習理論,分析不同并行流在模型內部的特征表示差異及其對 DIVERSITY 的影響。通過開展大量實驗,收集不同模型架構、不同數據集下的實驗數據,建立 DIVERSITY 與  的經驗模型。

在初步實驗中,發現當并行流數量  增加時,DIVERSITY 呈現先上升后下降的趨勢。這表明存在一個最優的  值,能夠使 DIVERSITY 最大化。例如,在某文本分類任務中,當  時,DIVERSITY 達到最大值,模型性能也最佳。研究者計劃通過進一步的實驗和理論分析,探索是否存在超過  的增長率以及  遠大于 8 時的性能上限等問題,從而為并行擴展法則的理論完善提供實證依據。

兩階段策略的最優分界點的實踐指導

為了確定不同模型的最佳兩階段策略分界點,研究者建立了一個數據驅動的優化模型。通過收集和分析不同類型 LLM 在采用兩階段預訓練策略時的實際數據,發現模型規模和訓練數據特點對最佳分界點有顯著影響。例如,對于較小規模的模型(如參數量在 1B 到 5B 之間),第一階段使用 80% 的訓練數據,第二階段使用 20% 的數據進行并行擴展訓練,能夠取得最佳性能。而對于較大規模的模型(如參數量超過 10B),第一階段使用 90% 的數據,第二階段使用 10% 的數據進行并行擴展訓練更為合適。

總結

PARSCALE 作為一種語言模型并行擴展范式,帶來了多方面的創新與價值。首先,它提出了通過增加并行計算來提升模型能力的理念,打破了傳統參數擴展和推理時間擴展的局限。其次,PARSCALE 通過理論推導和大規模實驗驗證了并行擴展法則的有效性,證明了 P 次并行計算擴展相當于將模型參數按  的比例進行擴展。此外,PARSCALE 在推理效率和模型能力提升方面表現出色,尤其適用于低資源邊緣設備。

實驗部分的數據更是令人信服。看到那些具體的數值對比,比如內存使用減少 22 倍,延遲增加僅為 6 倍,與傳統參數擴展方法相比的巨大優勢,讓我深刻意識到 PARSCALE 的實際應用價值。這不僅僅是一個理論上的模型,它已經在多個數據集和任務中證明了自己的實力,從代碼生成到常識問答,PARSCALE 都展現出了卓越的性能。

讀完關于 PARSCALE 的論文讓我想起另外一個 Repeat 重復采樣的論文,畢竟這已是在實際實踐中應用的,重復采樣本身就是通過并行的 continuous batching 來實現的。我通過對 Qwen 團隊研究的這個 PARSCALE 的了解,對并行擴展有了更進一步的認知。通過并行計算流的引入和動態輸出聚合,PARSCALE 在不大幅增加模型參數的情況下,實現了顯著的性能提升。PARSCALE 為大型語言模型的Scaling提供了新的思路,同時也為人工智能技術在業務上的落地注入了新的活力。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-05-22 04:00:00

PARSCALE大型語言模型LLM

2023-11-01 07:34:04

大語言模型應用協議識別

2025-08-20 09:06:00

2024-06-28 08:04:43

語言模型應用

2025-04-29 08:09:39

2024-07-22 09:10:04

大語言模型推薦系統人工智能

2024-08-30 15:19:22

2024-06-06 08:06:19

鴻蒙大語言模型LLM模型

2025-01-09 09:56:34

視覺模型圖像生成

2023-11-01 20:10:53

分布式并行技術

2024-04-26 11:30:43

GenAILinkedIn人工智能

2023-11-03 12:33:20

GoGORM

2009-07-23 11:29:49

虛擬化普及率

2025-06-06 14:32:20

阿里開源Qwen3

2009-03-13 10:54:18

SQL Server并行查詢數據庫管理

2025-07-28 02:55:00

2025-04-30 09:11:15

2009-05-13 15:38:45

微軟并行語言Axum

2023-09-26 07:36:24

2014-08-11 12:54:27

構建模塊代碼審查編程
點贊
收藏

51CTO技術棧公眾號

中国av在线播放| 亚洲中文一区二区三区| 日韩精品福利一区二区三区| 欧美性猛交xxxx偷拍洗澡| 色播亚洲视频在线观看| 国产日产亚洲系列最新| 亚洲人成毛片在线播放女女| 亚洲小视频在线| 巨乳女教师的诱惑| 中文字幕乱码在线播放| 中文字幕日韩一区| 蜜桃91精品入口| 国产又粗又大又爽视频| 一区二区三区四区五区在线| 日韩在线视频免费观看| 国产麻豆剧传媒精品国产av| 韩国成人在线| 亚洲二区在线观看| 中文字幕不卡每日更新1区2区| 粉嫩小泬无遮挡久久久久久| 免费一级片91| 欧美日本在线视频中文字字幕| 熟女俱乐部一区二区视频在线| 国产精品久久免费视频| 在线欧美小视频| 丁香六月激情婷婷| 黄色在线免费看| 国产亚洲制服色| 国精产品一区二区| 精品国产va久久久久久久| 视频一区视频二区中文字幕| 欧美精品激情blacked18| 99在线视频免费| 日韩美女毛片| 日韩www在线| 国产成人精品一区二区在线小狼| 国产麻豆一区| 欧美亚洲综合另类| 国产无套内射久久久国产| 欧美人与牲禽动交com| 国产精品久久久久天堂| 欧美在线视频二区| 亚州精品国产精品乱码不99按摩| 国产麻豆欧美日韩一区| 国产精品久久久久久久久借妻| 国产无码精品在线观看| 午夜欧美理论片| 久久亚洲精品网站| 日韩成人短视频| 偷偷www综合久久久久久久| 亚洲图片欧美午夜| 人妻av无码一区二区三区| 欧美丝袜足交| 精品视频在线播放| 最近中文字幕无免费| 国产毛片久久久| 精品不卡在线视频| 在线观看亚洲免费视频| www国产精品| 精品国产免费久久| av av在线| 老司机精品视频在线播放| 亚洲国产精品久久久久| 黄色免费看视频| 亚洲v天堂v手机在线| 日韩精品亚洲视频| av网站免费在线看| 全球成人免费直播| 久久精品99国产精品酒店日本| 日本精品在线免费观看| 欧美三级网页| 九九精品在线视频| 日本一区二区欧美| 国产精品入口66mio| 热re99久久精品国产66热| av一级在线观看| 捆绑调教一区二区三区| 成人免费黄色网| www香蕉视频| 99热这里都是精品| 日韩伦理一区二区三区av在线| 99视频在线观看地址| 亚洲婷婷在线视频| 欧美成人精品免费| 成人免费看黄| 欧美精品乱人伦久久久久久| 永久看看免费大片| 伊人久久大香线蕉综合网蜜芽| 国产亚洲精品日韩| 看片网站在线观看| 久久高清国产| 91美女片黄在线观| 午夜影院免费体验区| 亚洲国产精品成人综合色在线婷婷| 手机成人av在线| 国产夫妻在线播放| 欧美日免费三级在线| 国产成人精品一区二区三区在线观看 | 中日韩av电影| 9色porny| 国产亚洲欧美日韩精品一区二区三区 | 色综合天天做天天爱| 在线观看岛国av| 玖玖玖免费嫩草在线影院一区| 亚洲无线码在线一区观看| 欧洲猛交xxxx乱大交3| 亚洲欧美日韩一区在线观看| 成人精品一区二区三区| 神马亚洲视频| 一区二区在线观看不卡| 成年人网站大全| 一区二区在线视频观看| 在线看欧美日韩| 日韩激情在线播放| 国产曰批免费观看久久久| 另类视频在线观看+1080p| 天堂av最新在线| 欧美日韩在线免费视频| av直播在线观看| 国产精品porn| 国产在线拍偷自揄拍精品| 天天干免费视频| 亚洲码国产岛国毛片在线| 久久精品午夜福利| 日韩激情网站| 国内精品中文字幕| 精品国产99久久久久久宅男i| 国产免费成人在线视频| 好吊妞无缓冲视频观看| 97一区二区国产好的精华液| www.午夜精品| 最近中文在线观看| 久久精品无码一区二区三区| 国产原创中文在线观看| 亚洲精品不卡在线观看 | 亚洲奶水xxxx哺乳期| 欧美精品一级二级三级| 久久久久久久毛片| 久久久久久自在自线| 国产美女精品久久久| 亚洲妇熟xxxx妇色黄| 91精品国产综合久久精品| 国产又粗又长又硬| 免费av成人在线| 五月天丁香综合久久国产| 涩涩视频在线播放| 日韩黄色在线免费观看| 天天干在线播放| 99精品在线免费| 国产原创popny丨九色| 国产精品任我爽爆在线播放| 国内精品伊人久久| 无码国精品一区二区免费蜜桃| 亚洲成a人片综合在线| 91精品人妻一区二区三区蜜桃2| 欧美在线高清| 成人免费看片网址| 国产夫妻在线播放| 亚洲欧美成人一区二区在线电影| 日韩精品――中文字幕| 99久久精品国产一区| 日韩av片在线看| 亚洲美女久久| 国产精品久久视频| 老司机在线看片网av| 日韩写真欧美这视频| 久草免费新视频| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 99re这里只有| 亚洲欧美视频| 亚洲v国产v| 国产在线视频欧美一区| 欧美激情伊人电影| 青青青免费视频在线2| 欧美亚洲禁片免费| 日韩视频中文字幕在线观看| 高清不卡一区二区| 久久久久久久久久久视频| 精品一区二区三区在线| 成人av在线亚洲| 黄页在线观看免费| 亚洲另类激情图| 国产精品毛片一区二区在线看舒淇| 亚洲免费伊人电影| 91玉足脚交白嫩脚丫| 日本亚洲欧美天堂免费| 日韩不卡视频一区二区| 香蕉人人精品| 国产美女久久精品香蕉69| 久久一卡二卡| 亚洲偷欧美偷国内偷| 午夜精品一区二区三| 黑人精品xxx一区一二区| 国产三级aaa| av资源网一区| 亚洲av无日韩毛片久久| 在线视频免费在线观看一区二区| 亚洲精品二区| 国产精品极品| 成人性生交大片免费看视频直播 | 国产精选一区二区| 成人精品国产| 久久免费视频在线观看| 99reav在线| 亚洲精品大尺度| 国产又粗又猛视频| 精品久久久久久久久久久| 成人免费毛片xxx| 91日韩精品一区| 美女日批在线观看| 蜜臀av性久久久久蜜臀aⅴ流畅| 日本五级黄色片| 91一区在线| 女同一区二区| 成人激情自拍| 91精品在线一区| 日韩欧美一区二区三区在线观看| 欧美丰满片xxx777| 国产激情在线| 最近2019年日本中文免费字幕 | 亚洲天堂视频在线观看| 囯产精品久久久久久| 色狠狠av一区二区三区| 九九热精彩视频| 亚洲国产精品t66y| 30一40一50老女人毛片| 成人国产在线观看| 久久无码人妻一区二区三区| 蜜桃精品视频在线| 日韩中文字幕二区| 男人天堂欧美日韩| 欧美日韩福利在线| 久久亚洲成人| 日韩福利在线| 精品中文字幕一区二区三区av| 国产乱码精品一区二区三区不卡| 国产午夜久久av| 成人免费看片视频| 亚洲男男av| 国产欧美精品一区二区| 亚洲电影有码| 国产精品男人的天堂| 亚洲国产尤物| 国产精品视频一区二区高潮| 美女网站视频一区| 国产精品老女人精品视频| 超碰aⅴ人人做人人爽欧美| 日本国产一区二区三区| 九色porny丨入口在线| 欧美亚洲另类激情另类| 午夜影院一区| 日本欧美一二三区| 欧美日韩亚洲国产| 国产美女久久精品香蕉69| 欧美成人毛片| 亚洲a在线播放| 日韩精品一区二区三区免费视频| 成人夜晚看av| 高清精品久久| 成人h视频在线| 日韩高清在线观看一区二区| 亚洲a在线观看| 6080亚洲理论片在线观看| 国产精品久久久久久久免费大片| 国产精品自在| 日本一区二区精品视频| 日韩久久综合| 永久免费精品视频网站| 在线国产一区| 国产黄色片免费在线观看| 国产欧美日韩一区二区三区在线| 青青在线视频免费| 久久99精品久久久久久| 好吊操视频这里只有精品| 波多野结衣中文字幕一区二区三区 | 国产成人亚洲一区二区三区| 91精品久久久久久久久久| 日本免费精品| 久久偷看各类wc女厕嘘嘘偷窃| 综合亚洲自拍| 中文字幕日韩一区二区三区不卡| 欧美日本不卡高清| 逼特逼视频在线| 久久国产免费看| 日本不卡视频一区| 久久日韩精品一区二区五区| 亚洲毛片亚洲毛片亚洲毛片| 一区二区在线观看免费| 亚洲图片在线视频| 欧美一区二区三区四区在线观看 | 欧美日韩不卡在线视频| 日韩国产精品大片| 日本wwww色| 国产亚洲欧美中文| 免费在线观看av网址| 色婷婷一区二区| 国产后入清纯学生妹| 亚洲欧美综合v| 影音先锋在线播放| 日韩美女中文字幕| 一区二区在线免费播放| 亚洲精品中文字幕在线| 亚洲精品字幕| 日韩在线一区视频| 久久综合久久综合久久综合| 夫妻性生活毛片| 色综合夜色一区| 东京干手机福利视频| 日韩在线观看高清| 在线观看网站免费入口在线观看国内| 91精品视频在线| 成人中文视频| 黄色网页免费在线观看| 国产很黄免费观看久久| 一级片久久久久| 欧美性xxxxx极品| 精品人妻aV中文字幕乱码色欲| 一本久久综合亚洲鲁鲁| 日本午夜大片a在线观看| 91视频99| 国产精品久久久久久麻豆一区软件 | 欧美肥妇bbwbbw| 91激情在线视频| 青青操视频在线| 97国产一区二区精品久久呦| 五月亚洲婷婷| 日本高清xxxx| 精品一区二区三区久久| 大吊一区二区三区| 色婷婷一区二区三区四区| 日本免费不卡| 欧美中文字幕第一页| 精品少妇一区| 老太脱裤子让老头玩xxxxx| 国产成人综合亚洲91猫咪| 欧美老熟妇一区二区三区| 欧美精选在线播放| 欧美成年黄网站色视频| 国产精品亚洲激情| 青青草国产成人a∨下载安卓| 国产精品igao| 欧美国产精品专区| 中文字幕有码无码人妻av蜜桃| 亚洲丝袜在线视频| 羞羞影院欧美| 视频一区二区在线观看| 日本网站在线观看一区二区三区 | 国产精品欧美日韩一区二区| 国产成人高清| 天天色综合天天色| 综合久久久久综合| 国产精品亚洲欧美在线播放| 久久成人18免费网站| 日韩中文一区二区| 日韩精品一区二区免费| 91美女片黄在线观看91美女| 日本中文字幕第一页| 尤物yw午夜国产精品视频| 国产美女久久| 国产 国语对白 露脸| 床上的激情91.| 91蜜桃视频在线观看| 亚洲欧美制服综合另类| 成人看片网页| 亚洲日本一区二区三区在线不卡| 人妖欧美一区二区| 欧美激情视频二区| 欧美一区二区日韩| 91在线超碰| 欧美日本韩国在线| 精品一区二区在线免费观看| 免费成年人视频在线观看| 精品视频在线免费| 黄网站视频在线观看| 国产极品jizzhd欧美| 天天久久综合| 三级黄色片播放| 五月婷婷激情综合| 麻豆app在线观看| 成人在线免费观看视视频| 亚洲91中文字幕无线码三区| xxxxwww一片| 欧美日韩亚洲一区二区| 看电影就来5566av视频在线播放| 国产精品电影一区| 成人精品影院| 日本精品一二三| 色综合天天综合网天天狠天天| jizz在线观看视频| 91九色对白| 蜜臀91精品一区二区三区| 91n在线视频| 日韩精品一二三四区| 国产第一精品| 日本十八禁视频无遮挡| 亚洲国产成人一区二区三区| 免费国产羞羞网站视频| 国产精品成人aaaaa网站| 国内视频精品| 日本综合在线观看|