精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

【LLM】對大語言模型微調(diào)優(yōu)化的研究

發(fā)布于 2024-6-13 12:05
瀏覽
0收藏

一、結(jié)論寫在前面

論文來自Microsoft。

微調(diào)大語言模型是用戶嘗試將其適應(yīng)特定應(yīng)用的流行選擇。然而,微調(diào)這些模型是一項艱巨的任務(wù),因為用戶必須考慮多種因素,如資源預(yù)算、運行時間、模型大小和上下文長度等。一個具體挑戰(zhàn)是微調(diào)過程對內(nèi)存的需求很大,這限制了所需的硬件內(nèi)存和能夠處理的訓(xùn)練數(shù)據(jù)上下文長度。

論文分享了針對不同微調(diào)場景的各種微調(diào)優(yōu)化的詳細研究。特別是,論文評估了梯度檢查點(Gradient Checkpointing)、低秩適應(yīng)(Low Rank Adaptation)、DeepSpeed的ZeRO冗余優(yōu)化器(ZeRO Redundancy Optimizer)和Flash Attention。

  • 論文專注于內(nèi)存和運行時間,研究了不同優(yōu)化組合在微調(diào)階段對GPU內(nèi)存使用和執(zhí)行運行時的影響。
  • 論文提供了針對不同模型大小平衡內(nèi)存和運行時的最佳默認優(yōu)化建議。論文分享了有效策略,用于微調(diào)擁有數(shù)十億或數(shù)百億參數(shù)的非常大型模型,并在微調(diào)過程中實現(xiàn)大型上下文長度。
  • 此外,論文提出了在GPU資源限制下進行微調(diào)的適當優(yōu)化組合。

論文的結(jié)果表明:

  • ZeRO-2 + LoRA是一個可靠的優(yōu)化默認選項,通常能提供內(nèi)存使用和微調(diào)運行時之間的最佳平衡。
  • 通過使用正確的優(yōu)化組合,如ZeRO-3 + LoRA + GC,論文成功微調(diào)了高達Falcon-180B的模型。
  • 鑒于在GPU受限環(huán)境下微調(diào)LLM的需求,論文引入了跨模型大小x上下文長度的優(yōu)化矩陣。該優(yōu)化矩陣可以指導(dǎo)用戶選擇適合特定用例的正確優(yōu)化組合。
  • 論文得出結(jié)論,像DeepSpeed ZeRO這樣的優(yōu)化對于微調(diào)數(shù)十億參數(shù)模型至關(guān)重要,因為它們支持數(shù)據(jù)和模型并行,以及CPU卸載。
  • 結(jié)合DeepSpeed ZeRO,選擇額外的優(yōu)化以避免內(nèi)存不足失敗同時平衡微調(diào)運行時變得必要。

二、論文的簡單介紹

2.1 論文的背景

遷移學(xué)習(xí)為專化大型語言模型(LLMs)到特定任務(wù)或領(lǐng)域提供了一種非常有效的方法。在微調(diào)過程中,預(yù)訓(xùn)練的LLMs通常在任務(wù)特定的數(shù)據(jù)集上進一步訓(xùn)練,使其知識適應(yīng)特定任務(wù)。盡管這是一種強大的技術(shù),但由于其巨大的內(nèi)存需求,微調(diào)具有數(shù)十億可訓(xùn)練參數(shù)的LLMs仍然具有挑戰(zhàn)性。例如,在全浮點精度(32位)下微調(diào)一個10億參數(shù)模型,每個GPU大約需要24GB的高帶寬內(nèi)存(HBM)。因此,在沒有任何內(nèi)存優(yōu)化的情況下,LLM微調(diào)過程中經(jīng)常會遇到內(nèi)存不足的失敗。

近年來,為優(yōu)化GPU內(nèi)存使用,提出了若干關(guān)鍵技術(shù)。然而,這些技術(shù)對許多用戶來說理解復(fù)雜,且其應(yīng)用往往需要通過實驗來找到避免內(nèi)存溢出錯誤的正確組合。這不僅需要人力資源(用于研究和實施這些優(yōu)化),還需要計算資源(大量的GPU小時)來為特定任務(wù)選擇合適的優(yōu)化策略。

為了簡化用戶的微調(diào)過程,諸如Azure Machine Learning等平臺提供了先進的GPU內(nèi)存優(yōu)化技術(shù),使得即使使用少量GPU也能進行大型語言模型(LLM)的微調(diào)。

論文詳細介紹了流行的LLM微調(diào)優(yōu)化技術(shù),深入探討了內(nèi)存與運行時間的權(quán)衡,提供了選擇最佳優(yōu)化配置的指導(dǎo),并分享了論文的實驗結(jié)果,這些結(jié)果可用于校準優(yōu)化默認設(shè)置。

2.2 優(yōu)化技術(shù)概述

論文簡要概述了四種優(yōu)化技術(shù),這些技術(shù)可用于減少微調(diào)過程中的內(nèi)存瓶頸。所有這些優(yōu)化技術(shù)都可以被用戶在其微調(diào)任務(wù)中,如Azure Machine學(xué)習(xí)和Hugging Face等平臺上使用。

2.2.1 Gradient Checkpointing

梯度檢查點(GC)(Chen et al., 2016)通過不在深度神經(jīng)網(wǎng)絡(luò)(DNN)前向傳播(FP)過程中保留所有計算出的激活來審慎地利用GPU內(nèi)存。相反,它在反向傳播過程中重新計算許多激活,這有助于節(jié)省GPU內(nèi)存。最節(jié)省內(nèi)存的策略是在每n步保存檢查點,其中n是DNN的層數(shù)(深度)。這種策略確保計算時間仍與DNN的深度成線性關(guān)系,同時將GPU內(nèi)存需求從線性減少到DNN深度的平方根。因此,梯度檢查點使得能夠微調(diào)比僅增加20%-30%微調(diào)時間更大的LLMs。

2.2.2 LoRA

低秩適應(yīng)(LoRA)通過減少可訓(xùn)練參數(shù)的數(shù)量,從而降低微調(diào)過程中對GPU內(nèi)存的需求。它通過凍結(jié)預(yù)訓(xùn)練模型的權(quán)重,并在Transformer架構(gòu)的每個選定層中注入可訓(xùn)練的秩分解矩陣來實現(xiàn)這一目標。可訓(xùn)練參數(shù)的數(shù)量減少了幾個數(shù)量級,降低了微調(diào)的成本,同時保持了結(jié)果的質(zhì)量。例如,使用LoRA進行微調(diào),將秩設(shè)置為64,一個700億參數(shù)模型的可訓(xùn)練參數(shù)數(shù)量減少到約1.31億參數(shù)(-0.19%的原始模型大小)。

2.2.3 DeepSpeed

DeepSpeed的ZeRO冗余優(yōu)化器(ZeRO)是一種內(nèi)存優(yōu)化技術(shù),它提供了模型和數(shù)據(jù)并行性的好處,同時緩解了兩者的局限性。ZeRO驅(qū)動的數(shù)據(jù)并行性(Zero-DP)將模型狀態(tài)——參數(shù)、梯度和優(yōu)化器狀態(tài)——跨數(shù)據(jù)并行進程進行分區(qū),并使用動態(tài)通信調(diào)度在進程之間共享必要的模型狀態(tài)。

ZeRO-DP提供了三個優(yōu)化階段,這些階段相繼提供越來越大的內(nèi)存減少,同時產(chǎn)生一些運行時開銷。基于ZeRO-DP的微調(diào)可以分別實現(xiàn)第1階段和第2階段的4到8倍的內(nèi)存減少,而對于第3階段(假設(shè)有大量GPU)則可以達到線性內(nèi)存減少。這確實是以運行時為代價的,尤其是對于ZeRO-DP第3階段。

ZeRO優(yōu)化通過包含ZeRO-Offload和ZeRO-Infinity(得到進一步增強,它們分別將優(yōu)化器狀態(tài)和模型參數(shù)卸載到CPU。雖然ZeRO-Offload在所有三個ZeRO-DP階段都可用,但ZeRO-infinity僅適用于第3階段。如果不使用DeepSpeed ZeRO這樣的優(yōu)化,許多大型模型(數(shù)十億參數(shù))實際上不可能僅使用少數(shù)幾個V100或A100 GPU進行訓(xùn)練。    

2.2.4 快速注意力(Flash Attention)

快速注意力幫助實現(xiàn)注意力計算的復(fù)雜度從與序列/上下文長度相關(guān)的二次復(fù)雜度降為線性復(fù)雜度。它利用分塊和重計算技術(shù)顯著加速注意力計算。它明智地使用靜態(tài)隨機存取存儲器(SRAM),這是GPU中最昂貴但容量最小的存儲單元,最小化SRAM與高帶寬存儲器(HBM)之間的讀寫操作。在快速注意力版本2中,進一步優(yōu)化了減少較慢的非矩陣乘法操作,并沿著序列長度維度(除了批次和頭數(shù)維度外)并行化前向和后向傳播。

這些優(yōu)化中的一個關(guān)鍵特點是它們彼此正交。因此,它們可以組合起來為用戶帶來漸增的內(nèi)存和運行時效益。

2.3 理論分析GPU內(nèi)存需求

本節(jié)的目標是幫助讀者對影響訓(xùn)練過程中GPU內(nèi)存消耗的計算有一個基本的理解。以下三個變量主要影響訓(xùn)練期間的GPU內(nèi)存:

A. 模型狀態(tài) - 包括模型參數(shù)、梯度和優(yōu)化器狀態(tài)

B. 激活 - 表示中間計算結(jié)果

C. 臨時緩沖區(qū)和碎片

模型狀態(tài)內(nèi)存:論文使用Rajbhandari等人(2020)中的模型狀態(tài)內(nèi)存計算來估計(A)。這里論文簡要討論圖1中所示的模型狀態(tài)內(nèi)存計算。在混合精度訓(xùn)練中使用Adam優(yōu)化器時,可訓(xùn)練參數(shù)、動量和方差以全精度(32位)保持。假設(shè)有0個參數(shù),內(nèi)存總計為(0 + 0 + 0) x 4 = 120字節(jié)。因此,K-12是Adam優(yōu)化器特有的常數(shù)優(yōu)化器狀態(tài):可訓(xùn)練參數(shù) + 動量 + 方差梯度模型參數(shù)    

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

圖1:使用Adam優(yōu)化器在混合精度設(shè)置下微調(diào)0參數(shù)模型時的模型狀態(tài)內(nèi)存。模型狀態(tài)包括優(yōu)化器狀態(tài)、梯度和模型參數(shù)。在未啟用任何優(yōu)化的情況下,總模型狀態(tài)內(nèi)存總計達到160字節(jié)

在內(nèi)存計算中使用的乘數(shù)項。此外,在前向和后向傳播過程中,參數(shù)和梯度以半精度維護,這導(dǎo)致額外的內(nèi)存需求為20 + 20 = 40字節(jié)。ZeRO-DP階段決定了哪些模型狀態(tài)(參數(shù)、梯度、優(yōu)化器狀態(tài))在GPU之間分區(qū),從而節(jié)省內(nèi)存。

激活內(nèi)存:在沒有模型并行性的情況下,每個transformer層的激活內(nèi)存可以使用論文第4節(jié)中的公式1(Korthikanti等人,2022)進行估計。論文依賴相同的計算來確定(B)激活內(nèi)存需求的近似上限。每層的激活內(nèi)存可以表示為:

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

其中,s是序列長度,b是微批次大小,h是隱藏維度,a是注意力頭的數(shù)量。總激活內(nèi)存計算為transformer層數(shù) × 每層激活內(nèi)存。

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

表1:ZeRO-DP三個階段理論與實測GPU內(nèi)存分配(以GB為單位)的比較。微調(diào)模型為LLaMA-2-7B,使用8個A100 GPU(每個具有80 GB HBM)。理論估計可用于在運行微調(diào)作業(yè)之前近似實測內(nèi)存需求    

表 【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

 展示了論文在比較理論上預(yù)期的和經(jīng)驗上分配給LLaMA-2-7B微調(diào)的GPU內(nèi)存方面的結(jié)果,涉及ZeRO-DP的不

同階段。論文使用ZeRO-1、ZeRO-2和ZeRO-3分別表示ZeRO-DP的第1、2和3階段。理論內(nèi)存是通過匯總模型狀態(tài)和激活的內(nèi)存來計算的。論文使用以下模型默認參數(shù):transformer層數(shù)=32,隱藏維度大小h=4096,注意力頭數(shù)a-32,理論上計算出總激活內(nèi)存為1.48 GB。經(jīng)驗GPU內(nèi)存指的是微調(diào)過程中分配的峰值GPU內(nèi)存。論文展示了有無CPU卸載優(yōu)化器狀態(tài)的經(jīng)驗內(nèi)存。

論文的結(jié)果表明,理論計算可以作為微調(diào)過程中GPU內(nèi)存消耗(無CPU卸載)的粗略估計。在運行微調(diào)任務(wù)之前計算這一估計有助于預(yù)測內(nèi)存需求并有效規(guī)劃資源分配。論文注意到,啟用CPU卸載優(yōu)化器狀態(tài)可以將內(nèi)存使用量減少至不啟用卸載時的四分之一。因此,CPU卸載可以允許對具有數(shù)十億參數(shù)的模型進行微調(diào)時,對GPU和CPU資源進行高效利用,這是一個內(nèi)存密集型過程。

需要注意的是,在沒有ZeRO-DP優(yōu)化的情況下,使用傳統(tǒng)數(shù)據(jù)并行性對70億參數(shù)模型進行完全微調(diào)將需要超過112(16 x 7)GB的GPU內(nèi)存。這樣的內(nèi)存需求遠遠超過了A100s提供的80 GB GPU HBM。

2.4 實驗

論文首先分析微調(diào)優(yōu)化對內(nèi)存和運行時的影響。論文的分析結(jié)果用于推薦一組優(yōu)化,這些優(yōu)化可以作為平衡默認值,以優(yōu)化微調(diào)期間的內(nèi)存和運行時。隨后,論文深入研究大型模型(具有數(shù)十億參數(shù))的微調(diào),并探索使這種微調(diào)成為可能的優(yōu)化。接著,論文檢查Flash Attention 2在LLMs微調(diào)長上下文數(shù)據(jù)中的作用。最后,論文研究在資源受限的GPU(特別是V100s)上進行微調(diào)的具體情況。論文的目標是識別能夠在各種模型大小和上下文長度下,甚至在有限資源下實現(xiàn)高效微調(diào)的優(yōu)化。

2.4.1 設(shè)置

論文在Causal Language Modeling任務(wù)上對LLaMA-2(7B、13B、70B)和Falcon(180B)系列的模型進行微調(diào)。以下是論文的實驗設(shè)置的詳細信息:

  • 數(shù)據(jù):所有實驗中使用了Sampled Samsum數(shù)據(jù)集(Gli et al., 2019)進行微調(diào)。
  • 計算:使用了標準ND4Ors v2(8xV100)(Azure, 2022)和標準ND96amsr A100 v4(8xA100)(Azure, 2024)作為GPU計算資源。
  • 優(yōu)化器:所有實驗使用混合精度設(shè)置和AdamW優(yōu)化器(β1=0.9,β2=0.99),配合線性調(diào)度器和學(xué)習(xí)率4e-4。
  • 序列長度、批次大小和周期:序列長度通常設(shè)置為256。在探索序列長度影響的研究中,通過填充擴展輸入序列的長度。所有實驗中使用的有效批次大小為8。注意,可以通過梯度累積來增加有效批次大小,同時實現(xiàn)對可用GPU內(nèi)存的高效利用。所有模型都進行單周期微調(diào)。
  • LoRA:在使用LoRA的實驗中,LoRA的rank設(shè)置為64,alpha設(shè)置為32。
  • CPU卸載:除非明確指出,論文使用ZeRO-Offload在微調(diào)過程中將優(yōu)化器狀態(tài)和計算卸載到CPU。這有助于使用可用的GPU和CPU的計算及內(nèi)存資源訓(xùn)練數(shù)十億參數(shù)的模型。

在論文的實驗中,GPU內(nèi)存使用量通過微調(diào)過程中所有使用的GPU上分配的峰值GPU內(nèi)存來衡量。

2.4.2 最佳默認優(yōu)化以平衡內(nèi)存和運行時間

論文已經(jīng)確定,對于相對較小的7B參數(shù)模型,即使使用A100,不進行任何優(yōu)化進行微調(diào)也是不可行的。因此,論文使用DeepSpeed ZeRO,它提供了模型和數(shù)據(jù)并行性。論文檢查了在微調(diào)框架中應(yīng)默認啟用的微調(diào)優(yōu)化集合。論文選擇這些優(yōu)化的標準是基于它們在ZeRO-DP結(jié)合下,能夠在內(nèi)存使用和運行時間之間達到最佳平衡的能力。

論文在一個節(jié)點(8x A100 GPU)上對LLaMA-2-7B進行了五種不同配置的微調(diào):(a) 未啟用優(yōu)化 (b) 啟用梯度檢查點 (c) 啟用LoRA (d) 啟用Flash Attention 2 (e) 未啟用CPU卸載。每種配置都啟用了所有三個ZeRO-DP階段。論文選擇A100 GPU進行這些實驗,因為它們具有80 GB的大內(nèi)存容量。這種充足的內(nèi)存使論文能夠通過開啟和關(guān)閉各種優(yōu)化來靈活地進行實驗,同時避免內(nèi)存不足的失敗。    

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

圖2:LLaMA-2 7B在不同優(yōu)化配置下,使用ZeRO-1、ZeRO-2和ZeRO-3時的GPU內(nèi)存使用情況和微調(diào)運行時間。使用ZeRO-2結(jié)合LoRA提供了最佳的內(nèi)存使用與運行時間平衡

圖2展示了每種配置和ZeRO-DP階段下的GPU內(nèi)存使用和運行時間。根據(jù)結(jié)果,論文得出以下結(jié)論:

1.從運行時間和內(nèi)存使用的角度來看,最佳的優(yōu)化組合是配置(c),即ZeRO-DP + LoRA。由于LoRA減少了總的可訓(xùn)練參數(shù),它節(jié)省了內(nèi)存并縮短了運行時間。在Zero-DP + LoRA配置中,ZeRO-1和ZeRO-2階段的內(nèi)存使用及運行時間大致相似。當使用LoRA(rank=64)時,可訓(xùn)練參數(shù)減少到約3360萬個,對于7B模型而言。優(yōu)化器狀態(tài)和可訓(xùn)練參數(shù)的梯度占據(jù)了GPU內(nèi)存的極小部分。在ZeRO-1和ZeRO-2中,內(nèi)存消耗主要由總模型參數(shù)(70億)主導(dǎo),這些參數(shù)在半精度下占用14GB內(nèi)存。

1.配置(a)和(d)在ZeRO-DP階段的表現(xiàn)符合預(yù)期,即從階段1到2到3,內(nèi)存消耗下降,運行時間增加。對于配置(b)和(e),ZeRO-1的運行時間略高于ZeRO-2,內(nèi)存使用遵循隨著Zero-DP階段增加而減少的預(yù)期趨勢。

2.在(e)中禁用CPU卸載提供了最快的運行時間,但需要2-4倍更多的GPU內(nèi)存。

論文得出結(jié)論,ZeRO-2與LoRA的結(jié)合是維持內(nèi)存使用和運行時間平衡的優(yōu)秀默認選擇。此外,ZeRO-2能處理比ZeRO-1更大的模型,這有助于支持更廣泛的模型尺寸范圍。對于某些用例,如復(fù)雜的問答任務(wù)或構(gòu)建聊天機器人,用戶可能更喜歡完全微調(diào)模型。因此,是否使用LoRA由用戶自行決定。因此,論文建議在微調(diào)過程中默認激活ZeRO-2。    

2.4.3 大型模型的微調(diào)

微調(diào)大型模型如LLaMA-2 70B或Falcon 180B時,如果沒有啟用正確的優(yōu)化設(shè)置,常常會遇到內(nèi)存不足(OOM)錯誤。在這種情況下,啟用ZeRO-3是一個可行的替代方案,盡管它會增加運行時間。論文來檢查在ZeRO-3中,經(jīng)過【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)個節(jié)點和每個節(jié)點【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)個GPU微調(diào)后的模型狀態(tài)內(nèi)存項:

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

這里,【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)表示總可訓(xùn)練參數(shù)(以十億計)。假設(shè)一個標準的配置,每個節(jié)點有【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

個GPU,這將隨著模型尺寸的增加而增加。例如,在【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)個節(jié)點上完全微調(diào)一個

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)億參數(shù)的模型,將占用40GB的模型狀態(tài)內(nèi)存,這可以在具有80GB HBM的A100上容納。在實踐中,具有數(shù)百億參數(shù)的大型模型通常與LoRA一起微調(diào),并使用ZeRO-3與CPU卸載。這進一步降低了內(nèi)存需求,使其達到可管理的規(guī)模。             

論文能夠在單個節(jié)點上使用8xV100 GPU(32 GB HBM)結(jié)合ZeRO-3 + LoRA對LLaMA-2 70B進行微調(diào)。表【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)顯示,在論文的實驗中,70B模型的實際GPU內(nèi)存消耗約為15.54 GB。此外,可以看出,對于LLaMA-2 7B和13B這樣的較小模型,使用ZeRO-3 + LoRA會導(dǎo)致GPU內(nèi)存未充分利用。因此,論文的研究表明,對于微調(diào)具有數(shù)十億或數(shù)百億參數(shù)的大型模型,啟用ZeRO-3是必不可少的。此外,當與LoRA結(jié)合使用時,實際的總體內(nèi)存需求顯著減少。

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

表2:在8xV100 GPU上使用ZeRO-3 + LoRA對LLaMA-2模型進行微調(diào)的GPU內(nèi)存使用量和時間

對于較小模型,ZeRO-3 + LoRA顯然過于冗余,因為它可能導(dǎo)致GPU未充分利用以及運行時間增加。    

2.4.4 長上下文微調(diào)

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

              圖3:LLaMA-2 70B在不同上下文長度下,使用和不使用Flash-Attention 2對GPU內(nèi)存使用和微調(diào)時間的影響。在A100上啟用Flash-Attention 2顯著降低了較大上下文長度(如4096)的內(nèi)存消耗和運行時間

上下文長度是微調(diào)LLMs時的關(guān)鍵因素。特別是在使用包含非常長文本序列的數(shù)據(jù)集進行微調(diào)時尤為如此。沒有Flash-Attention 2(FA2),注意力計算隨著序列長度的平方增長而增加。由于V100 GPU不支持FA2,因此在使用較長上下文長度時,對GPU內(nèi)存消耗的影響可能很大。為了研究在微調(diào)過程中長上下文長度的影響,論文繪制了在A100(啟用和未啟用FA2)和V100(未啟用FA2)上不同上下文長度的內(nèi)存和運行時間。

具體來說,論文在8xV100和8xA100 GPU上分別使用1024、2048和4096的上下文長度對LLaMA-2 70B模型進行微調(diào)。在微調(diào)過程中啟用了LoRA和梯度檢查點技術(shù),并基于ZeRO-3進行優(yōu)化。

圖3展示了Flash-Attention 2對GPU內(nèi)存和運行時間的影響。論文的結(jié)果顯示,隨著上下文長度增加,至4096時,使用Flash-Attention 2相比于不使用,GPU內(nèi)存使用和運行時間有顯著減少。如圖3所示,在兩塊A100 GPU上或分別在A100和V100 GPU上比較使用和不使用Flash-Attention 2的運行時,這一趨勢是一致的。

論文的結(jié)論如下:高性能GPU如A100,由于其更大的HBM,可以在沒有Flash-Attention 2的情況下支持相對較長的上下文微調(diào)。然而,在兼容的GPU架構(gòu)上激活Flash-Attention 2是最優(yōu)的,因為它允許額外的內(nèi)存節(jié)省和減少運行時間。當使用允許較大上下文長度微調(diào)的模型訓(xùn)練長文本數(shù)據(jù)時,這一點變得尤為重要。    

2.4.5 在GPU資源限制下的微調(diào)

【LLM】對大語言模型微調(diào)優(yōu)化的研究-AI.x社區(qū)

圖4:使用V100 GPU時,不同大小LLMs微調(diào)的最佳配置。所有LLaMA-2實驗均使用8x V100進行,而Falcon-180B需要16xV100。由于V100不支持Flash-Attention 2,因此未包含在內(nèi)

本節(jié)討論在資源有限的情況下對LLMs(參數(shù)范圍從7B到180B)進行微調(diào)。論文將資源限制定義如下:

?可用的低資源GPU具有有限的HBM。

?可用的GPU數(shù)量較少。

論文對LLaMA-2 7B、13B、70B和Falcon-180B模型在五種不同的上下文長度上進行了微調(diào)。遵循資源約束規(guī)范,論文的實驗在一臺標準ND4Ors v2(8xV100 GPU)上進行,配備32 GB HBM。唯一例外的是Falcon-180B模型,由于其龐大的規(guī)模,論文在微調(diào)過程中使用了兩個節(jié)點(16x V100 GPU)。圖4展示了為滿足GPU內(nèi)存需求同時優(yōu)化運行時間應(yīng)啟用的首選優(yōu)化集合。

需要注意的是,雖然可能存在其他允許成功微調(diào)的組合,但論文選擇了那些最小化微調(diào)時間的組合。例如,用戶可以選擇啟用所有優(yōu)化,但通常并非所有優(yōu)化都是必要的,且可能會不必要地增加微調(diào)時間。

論文的結(jié)果中的關(guān)鍵見解包括:

  • 即使是為了在有限數(shù)量的GPU上適配像7B參數(shù)這樣的小型模型,結(jié)合模型和數(shù)據(jù)并行是先決條件,除非論文利用量化技術(shù)。
  • 隨著上下文長度或模型大小的增加,轉(zhuǎn)向更高階段的ZeRO-DP(零冗余優(yōu)化器-數(shù)據(jù)并行)以促進微調(diào)變得重要。這一趨勢在表格中清晰可見,從左到右或從上到下的移動對應(yīng)于更高階段的ZeRO-DP。
  • 梯度檢查點(GC)是一種有效的內(nèi)存節(jié)省優(yōu)化技術(shù),尤其適用于大型模型。如圖4所示,為LLaMA-2 13B和70B啟用GC使得支持的上下文長度從512擴展到4096,否則這是不可能的。類似地,GC對于在論文檢查的所有上下文長度上啟用Falcon-180B的微調(diào)至關(guān)重要。
  • 盡管Flash-Attention 2在V100 GPU上不支持,但論文的實驗結(jié)果表明,在支持的架構(gòu)上應(yīng)始終啟用它。值得一提的是,圖中概述的配置可用于在具有比V100更高HBM的GPU上進行微調(diào)。雖然這些配置可能不是所有GPU的最佳選擇,但論文的發(fā)現(xiàn)可以通過進一步的研究擴展到其他GPU。

     

論文標題:A Study of Optimizations for Fine-tuning Large Language Models

論文鏈接:???https://arxiv.org/pdf/2406.02290??    

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
又紧又大又爽精品一区二区| 老牛影视一区二区三区| 欧美精品一区二区三区在线播放| 五月丁香综合缴情六月小说| 可以免费看污视频的网站在线| 麻豆国产欧美日韩综合精品二区| 欧美激情视频一区| 久久成人激情视频| 亚洲午夜免费| 欧美三级欧美一级| 日本阿v视频在线观看| 国产视频福利在线| 成人午夜av在线| 国产精品欧美激情| 懂色av.com| 999久久久免费精品国产| 亚洲国产精品网站| 亚洲第一天堂久久| 亚洲不卡系列| 婷婷久久综合九色综合伊人色| 一区二区日本| 日韩偷拍自拍| 成人av网址在线| 国产在线观看一区二区三区 | 亚洲AV无码精品国产| 久久成人亚洲| 高清欧美性猛交xxxx黑人猛交| 99国产精品免费| 少妇久久久久| 精品久久久久久久一区二区蜜臀| 91国产精品视频在线观看| av老司机在线观看| 亚洲少妇最新在线视频| 日韩欧美手机在线| 先锋av资源站| 丰满放荡岳乱妇91ww| 国产精品一区二区久久精品| 中文字幕69页| 亚洲一区二区毛片| 国内精品小视频| 妺妺窝人体色www在线下载| 久久麻豆精品| 色综合影院在线| 国产综合精品久久久久成人av| 亚洲国产网址| 亚洲激情在线观看| 中文字幕制服丝袜| 狂野欧美xxxx韩国少妇| 亚洲丝袜一区| 亚洲婷婷在线视频| 一区二区三区四区不卡| 二人午夜免费观看在线视频| 久久一夜天堂av一区二区三区| 九九99玖玖| 性感美女福利视频| 久久丝袜美腿综合| 日本最新一区二区三区视频观看| 日韩精品123| 91久色porny| 欧美日韩一区二区三区在线视频| 欧美日韩国产综合视频| 久久先锋资源网| 日韩av电影免费播放| 国产在线色视频| 中文字幕精品—区二区四季| 亚洲一区二区三区午夜| 亚洲成人三级| 亚洲精品国产第一综合99久久| 女女同性女同一区二区三区按摩| 在线黄色网页| 亚洲成人综合在线| 黑森林福利视频导航| 666av成人影院在线观看| 欧美中文字幕一区二区三区亚洲| 一级片视频免费观看| 亚洲精品无播放器在线播放| 欧美一区二区三区日韩视频| 丰满人妻一区二区三区免费视频棣| 成人精品毛片| 亚洲香蕉在线观看| 欧美三级黄色大片| 亚洲视频狠狠| 国产精品久久不能| 国产模特av私拍大尺度| 懂色av一区二区夜夜嗨| 欧美成人一区二区在线| 欧美激情黑人| 亚洲1区2区3区视频| 久久久久免费精品| 精品国产亚洲一区二区三区大结局| 精品少妇一区二区三区视频免付费 | а_天堂中文在线| 欧美性猛交xxxx乱大交| 日本中文字幕观看| 国产厕拍一区| 中文字幕在线观看亚洲| 国产一级片免费观看| 日韩高清一区在线| 国产91精品一区二区绿帽| 欧美日韩在线中文字幕| 一区二区三区在线视频观看58| 北条麻妃在线视频观看| 亚洲精品成人一区| 日韩高清有码在线| 希岛爱理中文字幕| 午夜在线视频观看日韩17c| 91欧美视频网站| 国产一级片在线| 亚洲最大成人综合| 色天使在线观看| 欧美天堂影院| 美女性感视频久久久| 欧美日韩综合一区二区三区| 国产成人免费视频网站 | 欧美激情日韩| 国产精品久久久久高潮| 天堂网av2014| 亚洲精品国产无天堂网2021| 一区二区三区 欧美| 美女视频亚洲色图| 欧美巨猛xxxx猛交黑人97人| 在线免费一区二区| 91丝袜高跟美女视频| 青青草综合在线| 日韩国产大片| 国产亚洲精品久久久| 日韩av电影网址| 国产一区二区免费视频| 午夜老司机精品| 9i看片成人免费高清| 精品国产麻豆免费人成网站| 日韩欧美123区| 美女一区二区三区| 日韩wuma| 深夜视频一区二区| 亚洲色图偷窥自拍| 综合网在线观看| 91丨九色丨尤物| 99999精品视频| 欧美三级午夜理伦三级在线观看| 欧美激情精品久久久久久蜜臀 | 另类专区欧美蜜桃臀第一页| 欧美日韩一区综合| 中文字幕人成乱码在线观看| 亚洲高清不卡av| 国产主播在线播放| 国产成人亚洲综合a∨婷婷| 日韩中文字幕亚洲精品欧美| 国产一区二区三区亚洲综合| www.欧美免费| 97人妻精品一区二区三区| 亚洲国产精品精华液2区45| 激情五月婷婷久久| 精品国产一区二区三区| 国产精品扒开腿做| 国产一级片在线播放| 欧美亚州韩日在线看免费版国语版| 国产真实乱人偷精品人妻| 久久亚洲欧洲| 一区二区三区四区国产| 精品国产第一国产综合精品| 久久成人精品视频| 亚洲精品国产精| 亚洲动漫第一页| 蜜桃传媒一区二区亚洲av| 久久一区中文字幕| 一区二区在线观| 亚洲精品黑牛一区二区三区| 欧美劲爆第一页| 污污网站免费在线观看| 91精品1区2区| 亚洲一二三在线观看| 国产91精品一区二区麻豆网站 | 日韩专区一卡二卡| 亚洲看片网站| 日韩精品一区二区三区中文在线| 欧美激情中文字幕乱码免费| 头脑特工队2在线播放| 欧美在线色视频| 欧美黑人精品一区二区不卡| av网站免费线看精品| 美女网站免费观看视频| 波多野结衣的一区二区三区| 日韩亚洲欧美一区| 亚洲激情一区二区三区| 国产视频一区二| 国内偷自视频区视频综合| 国产一级免费在线观看| 4438亚洲最大| 国产精品久久久免费视频| 国产精品每日更新| 中国男女全黄大片| 日韩精品电影一区亚洲| 精品一二三四五区| 国产精品亚洲二区| 97se亚洲综合在线| 户外露出一区二区三区| 欧美大秀在线观看| 成人免费高清在线播放| 精品免费一区二区三区| 久久精品国产亚洲av麻豆蜜芽| 一区二区三区在线高清| 成年人在线免费看片| 粉嫩aⅴ一区二区三区四区| 欧美国产日韩在线播放| 国内精品福利| 一级做a爰片久久| 亚洲三级性片| 国产精品一国产精品最新章节| av在线不卡精品| 欧美亚洲国产另类| 色噜噜狠狠狠综合欧洲色8| 国产午夜一区二区| 秋霞网一区二区| 4hu四虎永久在线影院成人| 波多野结衣视频网站| 一区av在线播放| www.黄色com| 久久久www成人免费无遮挡大片| 亚洲911精品成人18网站| 蜜桃视频一区二区三区在线观看| 女性女同性aⅴ免费观女性恋| 一区二区三区在线| 亚洲一区二区高清视频| 亚洲成aⅴ人片久久青草影院| 成人在线观看av| 精品国产一区二区三区2021| 国产精品高清在线观看| 国产高清不卡| 97在线视频国产| 国产偷倩在线播放| 欧美成人在线免费| 欧美人xxx| 日韩中文字幕在线视频| 国产免费av在线| 亚洲欧洲免费视频| 日本中文字幕一区二区有码在线| 亚洲成人激情图| 高h放荡受浪受bl| 欧美成人在线直播| 亚洲AV午夜精品| 日韩女优制服丝袜电影| 99久久精品国产一区色| 7878成人国产在线观看| 国产女无套免费视频| 欧美精品久久99久久在免费线| 欧美视频xxxx| 欧美视频精品在线| 黄色一区二区视频| 精品视频免费在线| 最新黄色网址在线观看| 欧美日韩国产影片| 国产精品人人妻人人爽| 91精品国产免费久久综合| 国产精品久久久久久久久久久久久久久久| 欧美少妇一区二区| 中文字幕人妻一区二区三区视频| 欧美日韩高清一区二区三区| 一卡二卡三卡在线| 制服丝袜成人动漫| 亚洲AV无码成人片在线观看 | 日韩中文欧美| 中文字幕免费在线不卡| 欧美日韩精品| 尤物av无码色av无码| 久久经典综合| 国内国产精品天干天干| 国产精品原创巨作av| 中文字幕人妻一区| 久久久综合激的五月天| 免费黄在线观看| 一区二区三区蜜桃| 欧美a∨亚洲欧美亚洲| 欧美综合色免费| 国内老熟妇对白xxxxhd| 日韩精品视频在线播放| 高清性色生活片在线观看| 欧美18—19sex性hd| 欧美精品精品精品精品免费| 欧美少妇精品| 成人黄色在线播放| 欧美成人基地| 在线观看亚洲视频啊啊啊啊| 国产伊人精品| 国产视频一区二区三区在线播放| 久久av中文字幕片| 精品一区二区三区四区五区六区| 国产亚洲短视频| 久久久精品视频免费观看| 欧美日韩在线视频一区| 国产精品久久久午夜夜伦鲁鲁| 精品久久久久久久一区二区蜜臀| 二区三区在线| 欧美黑人国产人伦爽爽爽| 国产精品久久久久av电视剧| 97影院在线午夜| 激情综合网站| 国产玉足脚交久久欧美| 蜜臀av一区二区| 喷水视频在线观看| 亚洲品质自拍视频| 国产一级淫片a视频免费观看| 欧美一级在线免费| 成人在线视频成人| 久久久久久综合网天天| 一区二区三区| 欧美综合激情| 在线日韩欧美| 国模大尺度视频| 日本一区二区三区四区在线视频| 亚洲精品午夜久久久久久久| 在线电影院国产精品| 完全免费av在线播放| 欧美一级特黄a| 99riav一区二区三区| 国产午夜手机精彩视频| 欧美日韩一区不卡| 久草在线青青草| 97精品欧美一区二区三区| 999在线精品| 992tv快乐视频| 精品一区二区三区在线视频| 免费在线观看污| 五月婷婷综合激情| 成人毛片在线免费观看| 久久精品电影一区二区| 久久精品国产福利| 日韩精品欧美专区| 日韩中文字幕一区二区三区| 女尊高h男高潮呻吟| 午夜精品福利视频网站| 精品久久久中文字幕人妻| 久久精品99久久久香蕉| 久久久久久久性潮| 深田咏美在线x99av| 日韩精品一级中文字幕精品视频免费观看| 国产精品久久久久久久无码| 亚洲一二三区在线观看| 精品国产乱码久久久久久蜜臀网站| 久久精品免费播放| 95精品视频| 日日噜噜夜夜狠狠久久丁香五月| 久久电影网站中文字幕| 羞羞在线观看视频| 欧美精品自拍偷拍动漫精品| 黄色免费网站在线观看| 91免费国产视频| 久久久久久美女精品| 一二三av在线| 怡红院av一区二区三区| 精品人妻一区二区三区日产乱码| 久久国产色av| 国产欧美自拍一区| 国产精品333| 久久精品一区四区| 亚洲一级视频在线观看| 国产亚洲精品va在线观看| 国产亚洲人成a在线v网站| 中文精品视频一区二区在线观看| 激情综合色播激情啊| 无码人妻精品一区二区三区夜夜嗨| 欧美一区二区久久久| xxxx在线视频| 免费成人看片网址| 日韩中文字幕不卡| 国产人与禽zoz0性伦| 制服丝袜亚洲播放| а√天堂资源官网在线资源| 欧美日韩中文国产一区发布| 男人的j进女人的j一区| 国产三级国产精品国产国在线观看| 日韩一级免费观看| 日韩欧美一中文字暮专区| 色噜噜狠狠色综合网| 黄页网站大全一区二区| 国产精品成人av久久| 亚洲人成在线播放| 麻豆精品国产| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 日韩二区三区在线| 国产人妖一区| 欧美精品久久久久久久自慰| 久久久精品tv| 国产伦精品一区二区三区视频痴汉 | 蜜桃久久久久久| 激情五月婷婷小说| 亚洲男人天堂视频| 久久九九精品视频| 日本精品www| 一区二区视频在线| 国际av在线| 日韩精品一区二区三区老鸭窝| 亚洲一区二区观看| 欧美日韩亚洲一区二区| 黄色网页在线播放| 久久精品第九区免费观看| 激情丁香综合五月| 天天干,天天干| 色综合色综合久久综合频道88| 国产欧美日韩影院|