大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？

sbf_2000

發(fā)布于 2025-11-11 07:22

瀏覽

0收藏

你花數(shù)百萬訓(xùn)練一個大模型。訓(xùn)練完發(fā)現(xiàn)效果不錯。但你不知道的是：模型可能只學(xué)到了數(shù)據(jù)里20%的知識，剩下80%都浪費了。

怎么證明？很簡單：訓(xùn)練完之后，讓模型在回答問題時去原始訓(xùn)練數(shù)據(jù)里"搜一搜"，性能立馬提升——提升幅度相當(dāng)于你多花5倍的錢重新訓(xùn)練一個更大的模型。

這是蘋果和斯坦福研究團隊最近發(fā)現(xiàn)的。他們的論文用大白話說就是：大模型訓(xùn)練時學(xué)得太淺了，數(shù)據(jù)價值浪費嚴(yán)重。

論文的實驗設(shè)計很巧妙，分三步：

第一步：正常訓(xùn)練：用一堆數(shù)據(jù)訓(xùn)練模型，就像平時那樣。

第二步：加個"搜索"功能：訓(xùn)練完后，讓模型回答問題時，先去訓(xùn)練數(shù)據(jù)里搜索相關(guān)內(nèi)容，再回答。

關(guān)鍵：搜索的數(shù)據(jù)和訓(xùn)練的數(shù)據(jù)完全一樣。

第三步：對比效果：看看"訓(xùn)練"和"訓(xùn)練+搜索"的差距有多大。

測試用的是 MMLU：

大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？-AI.x社區(qū) 圖片

平均下來，搜索相當(dāng)于讓你多花了5倍的錢訓(xùn)練模型。

但注意：模型越大，這個倍數(shù)越小。說明大模型確實學(xué)得更充分一些。

這是作弊嗎？會不會是搜到了答案？研究團隊專門做了"去污染"實驗（就是把可能包含答案的數(shù)據(jù)刪掉），結(jié)果發(fā)現(xiàn)：即使刪掉疑似答案的數(shù)據(jù)，提升依然很明顯。MMLU 測試題有 14.1% 能在訓(xùn)練數(shù)據(jù)里找到，數(shù)學(xué)題更夸張，有 32.0%。這說明很多公開數(shù)據(jù)集其實有"泄題"問題。

不過，即便排除這些，提升還是很大。

為什么會這樣？簡單說：訓(xùn)練模型就像讓學(xué)生背書，而搜索就像讓學(xué)生開卷考試。

背書：

?需要把所有知識記在腦子里

?記不住的就丟了

?記住的也可能記錯

開卷考試：

?不用全記住，知道在哪查就行

?現(xiàn)場翻書，不會記錯

?還能理解得更深

所以同樣的訓(xùn)練數(shù)據(jù)，模型"背"只能學(xué)到20%，"開卷"就能用上100%。

不同科目差異很大有意思的是，不同類型的題目，搜索的幫助程度差很多：

大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？-AI.x社區(qū) 圖片

理工科受益最大？這很反常識。

一般認(rèn)為，搜索就是"查資料"，應(yīng)該對需要記憶的人文學(xué)科幫助更大。但實際上理工科受益更多。搜索不只是"查字典"。搜到的內(nèi)容本身就能幫模型推理和理解，尤其是理工科的復(fù)雜知識。

再加點技巧，效果更炸裂：研究團隊還測試了在搜索基礎(chǔ)上加一些小技巧：

技巧1：重新排序（reranker）搜出來的內(nèi)容再精選一遍，把最相關(guān)的放前面。

技巧2：多試幾次投票（self-consistency）讓模型回答5次，少數(shù)服從多數(shù)。

技巧3：換著搜（variance reduction）每次搜不同的內(nèi)容，增加多樣性。

最終結(jié)果（用 Llama 3.1 8B 這個公開模型測試）：

大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？-AI.x社區(qū) 圖片

看 SimpleQA 那個提升：從1.5%到74.0%，直接提升50倍！綜合算下來，這些技巧加起來相當(dāng)于讓訓(xùn)練成本增加11倍。

兩個意外發(fā)現(xiàn)

發(fā)現(xiàn)1：訓(xùn)練好用的數(shù)據(jù)，搜索不一定好用

大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？-AI.x社區(qū) 圖片

FineWeb-edu 用來訓(xùn)練效果更差，但用來搜索反而更好。

這說明：好的訓(xùn)練數(shù)據(jù)和好的搜索數(shù)據(jù)，標(biāo)準(zhǔn)可能不一樣。

發(fā)現(xiàn)2：模型不會用搜到的內(nèi)容

論文統(tǒng)計發(fā)現(xiàn)：

?把模型從小換成大的 → 39.7% 的答案變了

?加上搜索功能 → 只有 28.1% 的答案變了

這說明什么？

搜索沒幫上的題目，不是因為搜的內(nèi)容不好，而是模型不會用。就像給學(xué)生一本參考書，但學(xué)生不知道怎么看。

所以未來的方向是：教模型更好地利用搜到的內(nèi)容。

這對我們意味著什么？

1. 預(yù)訓(xùn)練可能浪費了很多錢

如果訓(xùn)練時只學(xué)到了20%，那意味著80%的訓(xùn)練成本打了水漂。

OpenAI、Google 花幾億美元訓(xùn)練模型，如果能把訓(xùn)練效率翻倍，能省多少錢？

2. 不用無限堆算力，優(yōu)化方法就能提升很多

現(xiàn)在大家都在拼"誰的GPU多"，但這篇論文說：改進訓(xùn)練方法可能更劃算。

與其花5倍的錢買GPU，不如研究怎么讓模型學(xué)得更充分。

3. "搜索"是個有效的低成本方案

訓(xùn)練一次要幾百萬美元，但加個搜索功能成本很低。

對于中小公司來說，這可能是更現(xiàn)實的路徑：

?用開源模型（Llama 等）

?加上自己領(lǐng)域的數(shù)據(jù)檢索

?用測試時技巧優(yōu)化

效果可能不比大廠的超大模型差多少。

4. 測試時優(yōu)化是新方向

以前大家都專注"怎么訓(xùn)練更好"，現(xiàn)在發(fā)現(xiàn)"怎么用更好"也很重要。

就像手機，不只是硬件要強，系統(tǒng)優(yōu)化也很關(guān)鍵。

寫在最后：問題比答案更重要

這篇論文最大的價值不是"搜索能提升效果"，而是提出了一個問題：

為什么模型訓(xùn)練時學(xué)得這么淺？

可能的原因：

?? 訓(xùn)練算法有問題，沒有充分利用數(shù)據(jù)

?? 模型結(jié)構(gòu)有局限，記不住那么多

?? 訓(xùn)練時間不夠長，還沒學(xué)會

論文說：

今天的訓(xùn)練方法并沒有充分利用訓(xùn)練數(shù)據(jù)中的信息，這給改進留下了很大空間。

換句話說：不用急著搞更大的模型、更多的GPU，先把現(xiàn)有的用好再說。

大模型的進步，不一定要靠"更大、更貴"。"更聰明"可能才是關(guān)鍵。

?標(biāo)題：Reusing Pre-Training Data at Test Time is a Compute Multiplier （在測試時重用訓(xùn)練數(shù)據(jù)，相當(dāng)于算力加倍）

?鏈接：https://arxiv.org/abs/2511.04234

本文轉(zhuǎn)載自??AI帝國??，作者：無影寺

標(biāo)簽

大模型

預(yù)訓(xùn)練

數(shù)據(jù)

已于2025-11-11 07:22:33修改

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

大語言模型高效推理知多少？三萬字長文帶你揭開神秘面紗（數(shù)據(jù)級、模型級和系統(tǒng)級）

angel ? 1.7w瀏覽 ? 0回復(fù)
HuggingFace放出規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

duhorse ? 4690瀏覽 ? 0回復(fù)
ICML 2024 | 大語言模型預(yù)訓(xùn)練新前沿：「最佳適配打包」重塑文檔處理標(biāo)準(zhǔn)

輕薄滴假象 ? 3702瀏覽 ? 0回復(fù)
值得細讀的八個視覺大模型生成式預(yù)訓(xùn)練方法

angel ? 8107瀏覽 ? 0回復(fù)
預(yù)訓(xùn)練大語言模型對時間序列預(yù)測真的有用嗎？去掉預(yù)訓(xùn)練LLM效果反而提升

海因斯DK ? 6603瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練語料、預(yù)處理和數(shù)據(jù)集索引、加載總結(jié)

amei2000go ? 9582瀏覽 ? 0回復(fù)
你真的了解預(yù)訓(xùn)練嗎？預(yù)訓(xùn)練與微調(diào)的區(qū)別是什么？

AI探索時代 ? 1.0w瀏覽 ? 0回復(fù)
大模型的核心之一——大模型預(yù)訓(xùn)練之數(shù)據(jù)預(yù)處理

AI探索時代 ? 6922瀏覽 ? 0回復(fù)
REGMIX: 作為語言模型預(yù)訓(xùn)練的回歸數(shù)據(jù)配比

sbf_2000 ? 4883瀏覽 ? 0回復(fù)
OLMoE: 開源的MoE語言模型(預(yù)訓(xùn)練&效果)

sbf_2000 ? 4608瀏覽 ? 0回復(fù)
為什么預(yù)訓(xùn)練大模型要使用無監(jiān)督學(xué)習(xí)的方式？

AI探索時代 ? 4386瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時代 ? 5954瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準(zhǔn)備，即怎么準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時代 ? 5805瀏覽 ? 0回復(fù)
探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用

NLP工作站 ? 3613瀏覽 ? 0回復(fù)
LLM訓(xùn)練數(shù)據(jù)綜述：預(yù)訓(xùn)練與微調(diào)數(shù)據(jù)的規(guī)模、來源、類型及開源資源梳理

AIRoobt ? 1.0w瀏覽 ? 0回復(fù)
大模型預(yù)訓(xùn)練代碼實戰(zhàn)教程

AI悠閑區(qū) ? 2190瀏覽 ? 0回復(fù)
大語言模型的全新預(yù)訓(xùn)練范式-強化預(yù)訓(xùn)練

sbf_2000 ? 2480瀏覽 ? 0回復(fù)
零外部數(shù)據(jù)自我進化大模型訓(xùn)練框架-R-Zero框架訓(xùn)練思路

大模型自然語言處理 ? 2763瀏覽 ? 0回復(fù)
突破大模型訓(xùn)練瓶頸：騰訊團隊提出RLPT新范式，讓模型從預(yù)訓(xùn)練數(shù)據(jù)中自我強化

柏企閱文 ? 2667瀏覽 ? 0回復(fù)

sbf_2000

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

51CTO

51CTO博客

51CTO學(xué)堂

大模型預(yù)訓(xùn)練：我們浪費了多少數(shù)據(jù)？

目錄