不靠海量數據,如何精準喂養大模型?上交Data Whisperer:免訓練數據選擇法,10%數據逼近全量效果
本文第一作者王少博為上海交通大學博士生,現于阿里 Qwen 團隊實習,此前有 CVPR 滿分一作論文。通訊作者為其導師、上海交大助理教授張林峰。本文其他作者來自上交 EPIC Lab、NTU、NUS、微軟、上海 AI Lab、港科大(廣州)等。
從未微調目標數據集,一個預訓練模型竟能自己篩選出「黃金訓練樣本」?
上海交通大學等團隊提出 Data Whisperer —— 首個免訓練的注意力驅動數據選擇框架。它直接利用預訓練模型的上下文學習(ICL)能力,無需額外微調打分模型,僅用 10% 數據就能讓微調效果逼近全量數據!
就像一位精通教學的導師,看一眼題庫就知道該讓學生重點練什么題。

- 論文標題:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
- 論文鏈接:arxiv.org/pdf/2505.12212
- GitHub 地址:gszfwsb/Data-Whisperer
- 關鍵詞:數據選擇、上下文學習、小樣本泛化、結構對齊
精調大模型,數據挑對才關鍵
模型說:「別給我扔幾百萬條數據了,你先告訴我哪些題值得看!」
傳統的數據選擇方法:
- 要先訓練個打分模型;
- 要調一堆啟發式參數;
- 要花一堆時間還不一定好用;
而 Data Whisperer 就像摸魚同學中的學霸 —— 不看全書也能穩拿高分。
方法機制:只靠模型自身,打分挑數據
Data Whisperer 是一種以大模型自身為評估器、完全免訓練的數據子集選擇方法。
1. ICL 少樣本構建
- 隨機采樣若干「示范樣本」和「查詢樣本」,構建 ICL 提示;
- 讓待精調的大模型嘗試回答這些查詢任務;
- 根據回答質量,給每個「示范樣本」打一個分。
2. 引入注意力感知權重
- 為了讓「題目權重」更加合理,Data Whisperer 不只看輸出結果;
- 它利用 Transformer 的注意力權重,度量每個示例對模型推理的「影響力」;
- 最終打分由模型輸出與注意力貢獻共同決定,更穩定、更合理。

這種打分機制是完全無需訓練、無需人工標注的!
Data Whisperer 不是「拍腦袋選題」,理論也站得住腳!
在傳統精調中,模型通過梯度下降顯式更新參數,比如注意力權重的關鍵值(Key)矩陣 W_K 和數值(Value)矩陣 W_V:

其中
是通過反向傳播學到的參數更新。
而在 ICL 過程中,雖然模型參數固定不變,但通過上下文中的示例(demonstration tokens)對注意力進行加權,使得模型在預測時行為發生了「類精調」式的變化:

這里的
并非真實權重更新,而是通過注意力機制 「模擬出的權重調整」。這正是 Data Whisperer 利用的核心。
也就是說,ICL 就像是在不動參數的前提下,用「語言上下文」在行為上更新了模型。
精調誰還全訓?我 10% 數據照樣打贏!
讓我們看看 Data Whisperer 的「壓軸戰績」:
- GSM8K 數學題:10% 數據打出 72.46%,還比全量數據(71.39%)更高;
- DialogSum 總結任務:用 Qwen 模型達到 43%,比最強 SOTA 方法高出 2.5 個點;
- BioInstruct 任務也同樣提升顯著。

別人還在選題,我已經開始精調了
Data Whisperer 引入了一個新的效率指標:Selection-to-Tuning Ratio(STR),即選擇過程耗時與全量精調耗時之比。
在該指標下,Data Whisperer 以 STR ≈ 0.03~0.2 的水平,大幅領先現有所有方法。相比之下,許多傳統方法(如 Nuggets)STR > 1,意味著「選題還不如直接精調快」。
Data Whisperer 用極低成本完成了模型適配所需的「預判題型」工作。

小模型選題,大模型精調,誰用誰知道!
Data Whisperer 支持弱模型作為「選題器」,強模型作為「學習者」的弱選強訓(weak-to-strong)機制。
例如,使用 Qwen-2.5-3B-Instruct 選題、再用 Qwen-2.5-7B-Instruct 精調,最終性能幾乎不降,卻帶來更低計算負擔。
Data Whisperer 成功實現了從小模型到大模型間的「知識前置遷移」,適用于資源受限場景下的精調任務。

演示題和查詢題怎么配?精細搭配才能挑好!
Data Whisperer 進一步分析了 ICL 中示例(n_d)與查詢(n_q)數量對選擇效果的影響。
結果顯示,n_d=10、n_q=5 是穩定優選配置。在此之后增加樣本數量,效果提升趨于飽和。
這表明 Data Whisperer 對輸入規模具有良好的魯棒性,不是靠堆樣本,而是真挑核心。

哪層注意力最好用?
Data Whisperer 的注意力打分依賴于 Transformer 的層級結構。作者分別測試了淺層、中層、深層注意力用于打分的效果。
結果發現,中間層(如 Layer13)提供的語義信息更穩定,選題效果更佳,符合語言模型內部語義聚合的層次分布規律。
Data Whisperer 巧妙借力模型結構,使「注意力」真正發揮了「注意」的功能。

模型偏好什么題?簡單好懂才是王道
進一步的分析中,作者使用 GPT-4o-mini 對被選中樣本的困惑度(perplexity)進行了評估。
發現 Data Whisperer 傾向選擇困惑度較低的樣本,說明模型更喜歡「簡單題」,也符合 Sorscher 等人在小樣本學習中的「易例優先」理論。

對比分析:到底比哪些方法強?
Data Whisperer 在所有主流數據選擇方法對比中均展現出領先效果:
- GraNd:基于梯度;
- EL2N:基于預測誤差;
- CCS:注重多樣性;
- Nuggets:需要額外精調打分器;
- STAFF:組合打分策略。
Data Whisperer 在準確率、效率、穩定性三個維度全面領先,尤其在低預算(1%、5%、10%)場景中優勢明顯。
Data Whisperer 的秘訣:ICL 就是精調的「影子」
Data Whisperer 并非經驗規則,而是基于理論支撐。
論文從注意力機制視角出發,分析了 ICL 過程中上下文樣本對模型輸出的影響,實質上等價于一種隱式的參數更新。
ICL 調整注意力權重 ≈ Fine-Tuning 調整參數矩陣
兩者都是為了「讓模型在未來輸入中表現更好」。
這一結構上的對應性解釋了 Data Whisperer 能有效選出訓練子集:它無需調模型參數,就能「預訓」出訓練效益。
啟示與未來方向
Data Whisperer 所倡導的是一種新范式:結構感知、推理驅動的數據選擇方法,為 LLM 訓練過程引入「自解釋、自判斷」的機制。
值得注意的是,字節 Seed 最新的工作 (https://arxiv.org/abs/2505.07293),也用了類似 few-shot 和 attention 結合的方法。
接下來值得探索的方向包括:
1. 將方法遷移至法律、醫療、工程等復雜結構任務;
2. 引入人類反饋或語言理解偏好,進一步增強「任務對齊」能力;
3. 結合 prompt 工程,控制示例順序以提升效果;
4. 與合成數據方法融合,構建任務驅動的多源樣本庫。
總之,Data Whisperer 并不是簡單優化效率的技巧,而是揭示了一個事實:
- 任務對齊不必依賴人類標簽、不必堆數據量。
- 結構化的推理機制與任務映射,本身就可以引導模型學習方向。
未來的大模型訓練也許不再是「知道做什么」,而是「知道問什么」。





























