大模型預(yù)訓(xùn)練:我們浪費了多少數(shù)據(jù)?
你花數(shù)百萬訓(xùn)練一個大模型。訓(xùn)練完發(fā)現(xiàn)效果不錯。但你不知道的是:模型可能只學(xué)到了數(shù)據(jù)里20%的知識,剩下80%都浪費了。
怎么證明?很簡單:訓(xùn)練完之后,讓模型在回答問題時去原始訓(xùn)練數(shù)據(jù)里"搜一搜",性能立馬提升——提升幅度相當(dāng)于你多花5倍的錢重新訓(xùn)練一個更大的模型。
這是蘋果和斯坦福研究團隊最近發(fā)現(xiàn)的。他們的論文用大白話說就是:大模型訓(xùn)練時學(xué)得太淺了,數(shù)據(jù)價值浪費嚴(yán)重。
論文的實驗設(shè)計很巧妙,分三步:
第一步:正常訓(xùn)練:用一堆數(shù)據(jù)訓(xùn)練模型,就像平時那樣。
第二步:加個"搜索"功能 :訓(xùn)練完后,讓模型回答問題時,先去訓(xùn)練數(shù)據(jù)里搜索相關(guān)內(nèi)容,再回答。
關(guān)鍵:搜索的數(shù)據(jù)和訓(xùn)練的數(shù)據(jù)完全一樣。
第三步:對比效果:看看"訓(xùn)練"和"訓(xùn)練+搜索"的差距有多大。
測試用的是 MMLU:
圖片
圖片
平均下來,搜索相當(dāng)于讓你多花了5倍的錢訓(xùn)練模型。
但注意:模型越大,這個倍數(shù)越小。說明大模型確實學(xué)得更充分一些。
這是作弊嗎?會不會是搜到了答案?研究團隊專門做了"去污染"實驗(就是把可能包含答案的數(shù)據(jù)刪掉),結(jié)果發(fā)現(xiàn):即使刪掉疑似答案的數(shù)據(jù),提升依然很明顯。MMLU 測試題有 14.1% 能在訓(xùn)練數(shù)據(jù)里找到,數(shù)學(xué)題更夸張,有 32.0%。這說明很多公開數(shù)據(jù)集其實有"泄題"問題。
不過,即便排除這些,提升還是很大。
為什么會這樣?簡單說:訓(xùn)練模型就像讓學(xué)生背書,而搜索就像讓學(xué)生開卷考試。
背書:
?需要把所有知識記在腦子里
?記不住的就丟了
?記住的也可能記錯
開卷考試:
?不用全記住,知道在哪查就行
?現(xiàn)場翻書,不會記錯
?還能理解得更深
所以同樣的訓(xùn)練數(shù)據(jù),模型"背"只能學(xué)到20%,"開卷"就能用上100%。
不同科目差異很大有意思的是,不同類型的題目,搜索的幫助程度差很多:
圖片
理工科受益最大?這很反常識。
一般認(rèn)為,搜索就是"查資料",應(yīng)該對需要記憶的人文學(xué)科幫助更大。但實際上理工科受益更多。搜索不只是"查字典"。搜到的內(nèi)容本身就能幫模型推理和理解,尤其是理工科的復(fù)雜知識。
再加點技巧,效果更炸裂:研究團隊還測試了在搜索基礎(chǔ)上加一些小技巧:
技巧1:重新排序(reranker)搜出來的內(nèi)容再精選一遍,把最相關(guān)的放前面。
技巧2:多試幾次投票(self-consistency)讓模型回答5次,少數(shù)服從多數(shù)。
技巧3:換著搜(variance reduction)每次搜不同的內(nèi)容,增加多樣性。
最終結(jié)果(用 Llama 3.1 8B 這個公開模型測試):
圖片
看 SimpleQA 那個提升:從1.5%到74.0%,直接提升50倍!綜合算下來,這些技巧加起來相當(dāng)于讓訓(xùn)練成本增加11倍。
兩個意外發(fā)現(xiàn)
發(fā)現(xiàn)1:訓(xùn)練好用的數(shù)據(jù),搜索不一定好用
圖片
FineWeb-edu 用來訓(xùn)練效果更差,但用來搜索反而更好。
這說明:好的訓(xùn)練數(shù)據(jù)和好的搜索數(shù)據(jù),標(biāo)準(zhǔn)可能不一樣。
發(fā)現(xiàn)2:模型不會用搜到的內(nèi)容
論文統(tǒng)計發(fā)現(xiàn):
?把模型從小換成大的 → 39.7% 的答案變了
?加上搜索功能 → 只有 28.1% 的答案變了
這說明什么?
搜索沒幫上的題目,不是因為搜的內(nèi)容不好,而是模型不會用。就像給學(xué)生一本參考書,但學(xué)生不知道怎么看。
所以未來的方向是:教模型更好地利用搜到的內(nèi)容。
這對我們意味著什么?
1. 預(yù)訓(xùn)練可能浪費了很多錢
如果訓(xùn)練時只學(xué)到了20%,那意味著80%的訓(xùn)練成本打了水漂。
OpenAI、Google 花幾億美元訓(xùn)練模型,如果能把訓(xùn)練效率翻倍,能省多少錢?
2. 不用無限堆算力,優(yōu)化方法就能提升很多
現(xiàn)在大家都在拼"誰的GPU多",但這篇論文說:改進訓(xùn)練方法可能更劃算。
與其花5倍的錢買GPU,不如研究怎么讓模型學(xué)得更充分。
3. "搜索"是個有效的低成本方案
訓(xùn)練一次要幾百萬美元,但加個搜索功能成本很低。
對于中小公司來說,這可能是更現(xiàn)實的路徑:
?用開源模型(Llama 等)
?加上自己領(lǐng)域的數(shù)據(jù)檢索
?用測試時技巧優(yōu)化
效果可能不比大廠的超大模型差多少。
4. 測試時優(yōu)化是新方向
以前大家都專注"怎么訓(xùn)練更好",現(xiàn)在發(fā)現(xiàn)"怎么用更好"也很重要。
就像手機,不只是硬件要強,系統(tǒng)優(yōu)化也很關(guān)鍵。
寫在最后:問題比答案更重要
這篇論文最大的價值不是"搜索能提升效果",而是提出了一個問題:
為什么模型訓(xùn)練時學(xué)得這么淺?
可能的原因:
?? 訓(xùn)練算法有問題,沒有充分利用數(shù)據(jù)
?? 模型結(jié)構(gòu)有局限,記不住那么多
?? 訓(xùn)練時間不夠長,還沒學(xué)會
論文說:
今天的訓(xùn)練方法并沒有充分利用訓(xùn)練數(shù)據(jù)中的信息,這給改進留下了很大空間。
換句話說:不用急著搞更大的模型、更多的GPU,先把現(xiàn)有的用好再說。
大模型的進步,不一定要靠"更大、更貴"。"更聰明"可能才是關(guān)鍵。
?標(biāo)題:Reusing Pre-Training Data at Test Time is a Compute Multiplier (在測試時重用訓(xùn)練數(shù)據(jù),相當(dāng)于算力加倍)
?鏈接:https://arxiv.org/abs/2511.04234
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

















