特定條件下,LoRA可以媲美全量微調(diào) | 十個要點
Thinking Machines,一家成立不久便震驚硅谷的AI公司。它由前OpenAI CTO Mira和聯(lián)合創(chuàng)始人John Schulman共同創(chuàng)立,團隊匯集了大量來自OpenAI的核心人才。他們繼承了80年代傳奇AI超算公司“Thinking Machines”之名,志在進行最根本、最前沿的AI探索。
來自Thinking Machines的最新研究《LoRA Without Regret》深入探討了參數(shù)高效微調(diào)(PEFT)的領先方法——低秩適應(LoRA),并得出結(jié)論:在特定條件下,LoRA的性能可以完全媲美甚至超越全量微調(diào)(FullFT)。對于希望在節(jié)省計算資源的同時獲得最佳模型性能的開發(fā)者和研究者來說,這無疑是個好消息。以下是該研究的十個核心要點:

1. 核心結(jié)論:LoRA能夠達到與全量微調(diào)相同的效果
研究表明,只要關鍵細節(jié)得當,LoRA能夠以與全量微調(diào)(FullFT)相同的樣本效率進行學習,并達到相同的最終性能。這打破了LoRA性能必然遜于全量微調(diào)的普遍認知,為高效微調(diào)在更多場景中的應用打開了大門。
2. 關鍵條件一:必須應用于所有層,尤其是MLP/MoE層
研究發(fā)現(xiàn),為了達到最佳性能,LoRA需要應用于模型的所有權(quán)重矩陣,而不僅僅是注意力層。尤其是在包含模型大多數(shù)參數(shù)的多層感知器(MLP)和混合專家(MoE)層上應用LoRA至關重要。僅在注意力層上應用LoRA會導致性能顯著下降,即便增加其秩(rank)以匹配參數(shù)量也無濟于事。

3. 關鍵條件二:容量不能受限
LoRA在“非容量受限”的情況下表現(xiàn)最佳。這意味著,可訓練的參數(shù)數(shù)量需要超過待學習的信息量。對于大多數(shù)后訓練(post-training)場景中常見的中小型數(shù)據(jù)集,LoRA的容量完全足夠。但當數(shù)據(jù)集過大,超出LoRA適配器的存儲極限時,其性能會開始落后于全量微調(diào)。
4. 強化學習(RL)場景下表現(xiàn)優(yōu)異,低秩即可
一個令人振奮的發(fā)現(xiàn)是,在強化學習任務中,LoRA即使在極低的秩(例如rank=1)下,也能完全匹配全量微調(diào)的性能。研究從信息論角度解釋了這一點:策略梯度等RL算法每個回合(episode)吸收的信息量遠少于監(jiān)督學習,因此不需要高容量的適配器。
5. 最佳學習率是全量微調(diào)的10倍
研究系統(tǒng)地發(fā)現(xiàn),無論是監(jiān)督學習還是強化學習,LoRA的最佳學習率穩(wěn)定地比全量微調(diào)的最佳學習率高出約10倍。這一明確的規(guī)律使得從全量微調(diào)轉(zhuǎn)向LoRA時的超參數(shù)遷移變得更加直接和簡單。

6. 對大批量大小(Large Batch Sizes)的容忍度較低
在某些情況下,LoRA對大批量訓練的容忍度不如全量微調(diào)。隨著批量大小的增加,LoRA與全量微調(diào)之間的性能差距會拉大。這似乎是LoRA矩陣分解參數(shù)化方式的固有屬性,不過在實踐中,兩者通常都在較小的批量大小下獲得最佳效果。
7. 高秩LoRA與全量微調(diào)的學習曲線相似
實驗中的圖表顯示,高秩的LoRA和全量微調(diào)擁有非常相似的學習曲線,損失隨著訓練步數(shù)的對數(shù)線性下降。而中低秩的LoRA在適配器容量耗盡后,學習速度會減慢,偏離最低損失曲線。
8. 顛覆傳統(tǒng):僅應用于注意力層是次優(yōu)選擇
最初的LoRA論文建議將其應用于注意力矩陣,許多后續(xù)工作也沿用了這一做法。然而,本次研究明確指出,這種“僅注意力”(attention-only)的方法性能不佳。與僅應用于MLP層相比,它甚至沒有任何額外的好處。
9. 具備顯著的計算效率優(yōu)勢
文章通過浮點運算次數(shù)(FLOPs)分析得出,在每次訓練傳遞(forward-backward pass)中,LoRA所需的計算量僅為全量微調(diào)的約三分之二多一點。這意味著在同等硬件和時間內(nèi),LoRA能夠完成更多的訓練,從而在計算效率上超越全量微調(diào)。
10. 存在一個“低遺憾機制”(Low-Regret Regime)
該研究定義并驗證了一個“低遺憾機制”的存在,即LoRA在大多數(shù)后訓練場景的數(shù)據(jù)集大小和參數(shù)設置下,其表現(xiàn)與全量微調(diào)幾乎沒有差異。這為在各種應用中放心使用高效的LoRA微調(diào)提供了堅實的實驗依據(jù)。
總而言之,這項研究為LoRA的使用者提供了清晰的指引:將LoRA應用于所有層,確保容量充足,并將學習率設置為全量微調(diào)的10倍,就能在享受其高效、低成本優(yōu)勢的同時,獲得與全量微調(diào)相媲美的頂尖性能。
本文轉(zhuǎn)載自??????后向傳播??????,作者: 張發(fā)恩

















