探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用
今天給大家?guī)硪黄接懘竽P皖A(yù)訓(xùn)練與微調(diào)之間關(guān)系的文章,主要通過微調(diào)預(yù)訓(xùn)練階段各個(gè)checkpoint,來發(fā)現(xiàn)預(yù)訓(xùn)練本身或?qū)ο掠挝⒄{(diào)有哪些影響。
- 大模型在預(yù)訓(xùn)練過程中的性能如何變化?
- 更多步數(shù)的預(yù)訓(xùn)練對下游微調(diào)有何影響?
- 大模型微調(diào)學(xué)到了什么,又忘記了什么?

Paper: https://arxiv.org/abs/2408.06663由于目前開源模型中,開放全量checkpoints的模型較少,并且實(shí)驗(yàn)成本較大,以下分析結(jié)果主要基于OLMo-1B模型(同時(shí)訓(xùn)練細(xì)節(jié)、預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)都公開了)進(jìn)行實(shí)驗(yàn),微調(diào)數(shù)據(jù)詳細(xì)如下表所示,

大模型在預(yù)訓(xùn)練過程中的性能如何變化?

針對大模型在預(yù)訓(xùn)練過程中的checkpoints,進(jìn)行下游任務(wù)zero-shot或few-shot測試,如上圖可以發(fā)現(xiàn),大模型隨著訓(xùn)練步數(shù)的增加,并不是所有任務(wù)數(shù)據(jù)的效果會隨之提高,部分任務(wù)數(shù)據(jù)在整個(gè)預(yù)訓(xùn)練過程中,基本沒有變化。效果提高的任務(wù)數(shù)據(jù),也主要在訓(xùn)練前期提高較多,后期趨于平穩(wěn)。
模型在預(yù)訓(xùn)練過程中,更多在學(xué)習(xí)知識,即使學(xué)習(xí)更多,可能也不會使用。
更多步數(shù)的預(yù)訓(xùn)練對下游微調(diào)有何影響?


如上圖所示,可以發(fā)現(xiàn),在預(yù)訓(xùn)練時(shí)表現(xiàn)較好的任務(wù)數(shù)據(jù),在微調(diào)過程中并不會得到改善,即在預(yù)訓(xùn)練過程中已經(jīng)獲取了知識信息,微調(diào)則沒有幫助。
但在預(yù)訓(xùn)練階段表現(xiàn)不好的任務(wù)數(shù)據(jù),微調(diào)模型的每個(gè)checkpoint都會有明顯的改善,一般微調(diào)收益先增加再減少。

那么,如果模型在某一任務(wù)上一定需要下游微調(diào)時(shí),可能早停的checkpoint效果更優(yōu)。
大模型微調(diào)學(xué)到了什么,又忘記了什么?
從任務(wù)格式、任務(wù)遷移和領(lǐng)域知識三個(gè)維度來分析微調(diào)學(xué)到了哪些內(nèi)容。
- 任務(wù)格式:利用三種任務(wù)格式(默認(rèn)格式、IO格式、Intruct格式)驗(yàn)證大模型在不同checkpoint上的性能。發(fā)現(xiàn):在預(yù)訓(xùn)練早期,微調(diào)格式與預(yù)訓(xùn)練格式一致可以獲取更好的效果,隨著預(yù)訓(xùn)練步數(shù)增加,大模型對格式的敏感性會隨之下降,可以變的更加靈活。微調(diào)階段可以教會大模型去適應(yīng)任務(wù)格式。

- 任務(wù)遷移:很多研究已經(jīng)發(fā)現(xiàn)模型微調(diào)會導(dǎo)致某些任務(wù)的改進(jìn),但另一些任務(wù)的退化。通過實(shí)驗(yàn)發(fā)現(xiàn),在生成任務(wù)上微調(diào),在其他生成任務(wù)和分類任務(wù)上驗(yàn)證基本無下降;在分類任務(wù)上微調(diào),在其他分類任務(wù)上無下降,但在分類任務(wù)上有明顯下降。


- 領(lǐng)域知識:模型在學(xué)習(xí)其他能力之后,是否一定會遺忘微調(diào)之前擁有的領(lǐng)域知識。如下圖所示,對于不同任務(wù)的結(jié)論不一致,所有NLI數(shù)據(jù)在MNLI上微調(diào)后,都會得到提高;但在Paws微調(diào)后,其他釋義檢測數(shù)據(jù)集均有下降。意味著遺忘和學(xué)習(xí)都發(fā)生。

本文轉(zhuǎn)載自NLP工作站,作者:劉聰NLP

















