不靠海量數據，如何精準喂養大模型？上交Data Whisperer：免訓練數據選擇法，10%數據逼近全量效果

2025-07-30 09:00:00

上海交通大學等團隊提出 Data Whisperer —— 首個免訓練的注意力驅動數據選擇框架。它直接利用預訓練模型的上下文學習（ICL）能力，無需額外微調打分模型，僅用 10% 數據就能讓微調效果逼近全量數據！

本文第一作者王少博為上海交通大學博士生，現于阿里 Qwen 團隊實習，此前有 CVPR 滿分一作論文。通訊作者為其導師、上海交大助理教授張林峰。本文其他作者來自上交 EPIC Lab、NTU、NUS、微軟、上海 AI Lab、港科大（廣州）等。

從未微調目標數據集，一個預訓練模型竟能自己篩選出「黃金訓練樣本」？

就像一位精通教學的導師，看一眼題庫就知道該讓學生重點練什么題。

論文標題：Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
論文鏈接：arxiv.org/pdf/2505.12212
GitHub 地址：gszfwsb/Data-Whisperer
關鍵詞：數據選擇、上下文學習、小樣本泛化、結構對齊

精調大模型，數據挑對才關鍵

模型說：「別給我扔幾百萬條數據了，你先告訴我哪些題值得看！」

傳統的數據選擇方法：

要先訓練個打分模型；
要調一堆啟發式參數；
要花一堆時間還不一定好用；

而 Data Whisperer 就像摸魚同學中的學霸 —— 不看全書也能穩拿高分。

方法機制：只靠模型自身，打分挑數據

Data Whisperer 是一種以大模型自身為評估器、完全免訓練的數據子集選擇方法。

1. ICL 少樣本構建

隨機采樣若干「示范樣本」和「查詢樣本」，構建 ICL 提示；
讓待精調的大模型嘗試回答這些查詢任務；
根據回答質量，給每個「示范樣本」打一個分。

2. 引入注意力感知權重

為了讓「題目權重」更加合理，Data Whisperer 不只看輸出結果；
它利用 Transformer 的注意力權重，度量每個示例對模型推理的「影響力」；
最終打分由模型輸出與注意力貢獻共同決定，更穩定、更合理。

這種打分機制是完全無需訓練、無需人工標注的！

Data Whisperer 不是「拍腦袋選題」，理論也站得住腳！

在傳統精調中，模型通過梯度下降顯式更新參數，比如注意力權重的關鍵值（Key）矩陣 W_K 和數值（Value）矩陣 W_V：

其中是通過反向傳播學到的參數更新。

而在 ICL 過程中，雖然模型參數固定不變，但通過上下文中的示例（demonstration tokens）對注意力進行加權，使得模型在預測時行為發生了「類精調」式的變化：

這里的并非真實權重更新，而是通過注意力機制「模擬出的權重調整」。這正是 Data Whisperer 利用的核心。

也就是說，ICL 就像是在不動參數的前提下，用「語言上下文」在行為上更新了模型。

精調誰還全訓？我 10% 數據照樣打贏！

讓我們看看 Data Whisperer 的「壓軸戰績」：

GSM8K 數學題：10% 數據打出 72.46%，還比全量數據（71.39%）更高；
DialogSum 總結任務：用 Qwen 模型達到 43%，比最強 SOTA 方法高出 2.5 個點；
BioInstruct 任務也同樣提升顯著。

別人還在選題，我已經開始精調了

Data Whisperer 引入了一個新的效率指標：Selection-to-Tuning Ratio（STR），即選擇過程耗時與全量精調耗時之比。

在該指標下，Data Whisperer 以 STR ≈ 0.03~0.2 的水平，大幅領先現有所有方法。相比之下，許多傳統方法（如 Nuggets）STR > 1，意味著「選題還不如直接精調快」。

Data Whisperer 用極低成本完成了模型適配所需的「預判題型」工作。

小模型選題，大模型精調，誰用誰知道！

Data Whisperer 支持弱模型作為「選題器」，強模型作為「學習者」的弱選強訓（weak-to-strong）機制。

例如，使用 Qwen-2.5-3B-Instruct 選題、再用 Qwen-2.5-7B-Instruct 精調，最終性能幾乎不降，卻帶來更低計算負擔。

Data Whisperer 成功實現了從小模型到大模型間的「知識前置遷移」，適用于資源受限場景下的精調任務。

演示題和查詢題怎么配？精細搭配才能挑好！

Data Whisperer 進一步分析了 ICL 中示例（n_d）與查詢（n_q）數量對選擇效果的影響。

結果顯示，n_d=10、n_q=5 是穩定優選配置。在此之后增加樣本數量，效果提升趨于飽和。

這表明 Data Whisperer 對輸入規模具有良好的魯棒性，不是靠堆樣本，而是真挑核心。

哪層注意力最好用？

Data Whisperer 的注意力打分依賴于 Transformer 的層級結構。作者分別測試了淺層、中層、深層注意力用于打分的效果。

結果發現，中間層（如 Layer13）提供的語義信息更穩定，選題效果更佳，符合語言模型內部語義聚合的層次分布規律。

Data Whisperer 巧妙借力模型結構，使「注意力」真正發揮了「注意」的功能。

模型偏好什么題？簡單好懂才是王道

進一步的分析中，作者使用 GPT-4o-mini 對被選中樣本的困惑度（perplexity）進行了評估。

發現 Data Whisperer 傾向選擇困惑度較低的樣本，說明模型更喜歡「簡單題」，也符合 Sorscher 等人在小樣本學習中的「易例優先」理論。

對比分析：到底比哪些方法強？

Data Whisperer 在所有主流數據選擇方法對比中均展現出領先效果：

GraNd：基于梯度；
EL2N：基于預測誤差；
CCS：注重多樣性；
Nuggets：需要額外精調打分器；
STAFF：組合打分策略。

Data Whisperer 在準確率、效率、穩定性三個維度全面領先，尤其在低預算（1%、5%、10%）場景中優勢明顯。

Data Whisperer 的秘訣：ICL 就是精調的「影子」

Data Whisperer 并非經驗規則，而是基于理論支撐。

論文從注意力機制視角出發，分析了 ICL 過程中上下文樣本對模型輸出的影響，實質上等價于一種隱式的參數更新。

ICL 調整注意力權重 ≈ Fine-Tuning 調整參數矩陣

兩者都是為了「讓模型在未來輸入中表現更好」。

這一結構上的對應性解釋了 Data Whisperer 能有效選出訓練子集：它無需調模型參數，就能「預訓」出訓練效益。

啟示與未來方向

Data Whisperer 所倡導的是一種新范式：結構感知、推理驅動的數據選擇方法，為 LLM 訓練過程引入「自解釋、自判斷」的機制。

值得注意的是，字節 Seed 最新的工作 (https://arxiv.org/abs/2505.07293)，也用了類似 few-shot 和 attention 結合的方法。

接下來值得探索的方向包括：

1. 將方法遷移至法律、醫療、工程等復雜結構任務；

2. 引入人類反饋或語言理解偏好，進一步增強「任務對齊」能力；

3. 結合 prompt 工程，控制示例順序以提升效果；

4. 與合成數據方法融合，構建任務驅動的多源樣本庫。

總之，Data Whisperer 并不是簡單優化效率的技巧，而是揭示了一個事實：

任務對齊不必依賴人類標簽、不必堆數據量。
結構化的推理機制與任務映射，本身就可以引導模型學習方向。

未來的大模型訓練也許不再是「知道做什么」，而是「知道問什么」。

責任編輯：張燕妮來源：機器之心

模型訓練數據