精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不靠海量數據,如何精準喂養大模型?上交Data Whisperer:免訓練數據選擇法,10%數據逼近全量效果

人工智能 新聞
上海交通大學等團隊提出 Data Whisperer —— 首個免訓練的注意力驅動數據選擇框架。它直接利用預訓練模型的上下文學習(ICL)能力,無需額外微調打分模型,僅用 10% 數據就能讓微調效果逼近全量數據!

本文第一作者王少博為上海交通大學博士生,現于阿里 Qwen 團隊實習,此前有 CVPR 滿分一作論文。通訊作者為其導師、上海交大助理教授張林峰。本文其他作者來自上交 EPIC Lab、NTU、NUS、微軟、上海 AI Lab、港科大(廣州)等。

從未微調目標數據集,一個預訓練模型竟能自己篩選出「黃金訓練樣本」?

上海交通大學等團隊提出 Data Whisperer —— 首個免訓練的注意力驅動數據選擇框架。它直接利用預訓練模型的上下文學習(ICL)能力,無需額外微調打分模型,僅用 10% 數據就能讓微調效果逼近全量數據!

就像一位精通教學的導師,看一眼題庫就知道該讓學生重點練什么題。

圖片

  • 論文標題:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
  • 論文鏈接:arxiv.org/pdf/2505.12212  
  • GitHub 地址:gszfwsb/Data-Whisperer  
  • 關鍵詞:數據選擇、上下文學習、小樣本泛化、結構對齊

精調大模型,數據挑對才關鍵

模型說:「別給我扔幾百萬條數據了,你先告訴我哪些題值得看!」

傳統的數據選擇方法:

  • 要先訓練個打分模型;
  • 要調一堆啟發式參數;
  • 要花一堆時間還不一定好用;

而 Data Whisperer 就像摸魚同學中的學霸 —— 不看全書也能穩拿高分。

方法機制:只靠模型自身,打分挑數據

Data Whisperer 是一種以大模型自身為評估器、完全免訓練的數據子集選擇方法。

1. ICL 少樣本構建

  • 隨機采樣若干「示范樣本」和「查詢樣本」,構建 ICL 提示;
  • 讓待精調的大模型嘗試回答這些查詢任務;
  • 根據回答質量,給每個「示范樣本」打一個分。

2. 引入注意力感知權重

  • 為了讓「題目權重」更加合理,Data Whisperer 不只看輸出結果;
  • 它利用 Transformer 的注意力權重,度量每個示例對模型推理的「影響力」;
  • 最終打分由模型輸出與注意力貢獻共同決定,更穩定、更合理。

圖片

這種打分機制是完全無需訓練、無需人工標注的!

Data Whisperer 不是「拍腦袋選題」,理論也站得住腳!

在傳統精調中,模型通過梯度下降顯式更新參數,比如注意力權重的關鍵值(Key)矩陣 W_K 和數值(Value)矩陣 W_V:

圖片

其中圖片 是通過反向傳播學到的參數更新。

而在 ICL 過程中,雖然模型參數固定不變,但通過上下文中的示例(demonstration tokens)對注意力進行加權,使得模型在預測時行為發生了「類精調」式的變化:

圖片

這里的 圖片并非真實權重更新,而是通過注意力機制 「模擬出的權重調整」。這正是 Data Whisperer 利用的核心。

也就是說,ICL 就像是在不動參數的前提下,用「語言上下文」在行為上更新了模型。

精調誰還全訓?我 10% 數據照樣打贏!

讓我們看看 Data Whisperer 的「壓軸戰績」:

  • GSM8K 數學題:10% 數據打出 72.46%,還比全量數據(71.39%)更高;
  • DialogSum 總結任務:用 Qwen 模型達到 43%,比最強 SOTA 方法高出 2.5 個點;
  • BioInstruct 任務也同樣提升顯著。

圖片

別人還在選題,我已經開始精調了

Data Whisperer 引入了一個新的效率指標:Selection-to-Tuning Ratio(STR),即選擇過程耗時與全量精調耗時之比。

在該指標下,Data Whisperer 以 STR ≈ 0.03~0.2 的水平,大幅領先現有所有方法。相比之下,許多傳統方法(如 Nuggets)STR > 1,意味著「選題還不如直接精調快」。

Data Whisperer 用極低成本完成了模型適配所需的「預判題型」工作。

圖片

小模型選題,大模型精調,誰用誰知道!

Data Whisperer 支持弱模型作為「選題器」,強模型作為「學習者」的弱選強訓(weak-to-strong)機制。

例如,使用 Qwen-2.5-3B-Instruct 選題、再用 Qwen-2.5-7B-Instruct 精調,最終性能幾乎不降,卻帶來更低計算負擔。

Data Whisperer 成功實現了從小模型到大模型間的「知識前置遷移」,適用于資源受限場景下的精調任務。

圖片

演示題和查詢題怎么配?精細搭配才能挑好!

Data Whisperer 進一步分析了 ICL 中示例(n_d)與查詢(n_q)數量對選擇效果的影響。

結果顯示,n_d=10、n_q=5 是穩定優選配置。在此之后增加樣本數量,效果提升趨于飽和。

這表明 Data Whisperer 對輸入規模具有良好的魯棒性,不是靠堆樣本,而是真挑核心。

圖片

哪層注意力最好用?

Data Whisperer 的注意力打分依賴于 Transformer 的層級結構。作者分別測試了淺層、中層、深層注意力用于打分的效果。

結果發現,中間層(如 Layer13)提供的語義信息更穩定,選題效果更佳,符合語言模型內部語義聚合的層次分布規律。

Data Whisperer 巧妙借力模型結構,使「注意力」真正發揮了「注意」的功能。

圖片

模型偏好什么題?簡單好懂才是王道

進一步的分析中,作者使用 GPT-4o-mini 對被選中樣本的困惑度(perplexity)進行了評估。

發現 Data Whisperer 傾向選擇困惑度較低的樣本,說明模型更喜歡「簡單題」,也符合 Sorscher 等人在小樣本學習中的「易例優先」理論。

圖片

對比分析:到底比哪些方法強?

Data Whisperer 在所有主流數據選擇方法對比中均展現出領先效果:

  • GraNd:基于梯度;
  • EL2N:基于預測誤差;
  • CCS:注重多樣性;
  • Nuggets:需要額外精調打分器;
  • STAFF:組合打分策略。

Data Whisperer 在準確率、效率、穩定性三個維度全面領先,尤其在低預算(1%、5%、10%)場景中優勢明顯。

Data Whisperer 的秘訣:ICL 就是精調的「影子」

Data Whisperer 并非經驗規則,而是基于理論支撐。

論文從注意力機制視角出發,分析了 ICL 過程中上下文樣本對模型輸出的影響,實質上等價于一種隱式的參數更新。

ICL 調整注意力權重 ≈ Fine-Tuning 調整參數矩陣

兩者都是為了「讓模型在未來輸入中表現更好」。

這一結構上的對應性解釋了 Data Whisperer 能有效選出訓練子集:它無需調模型參數,就能「預訓」出訓練效益。

啟示與未來方向

Data Whisperer 所倡導的是一種新范式:結構感知、推理驅動的數據選擇方法,為 LLM 訓練過程引入「自解釋、自判斷」的機制。

值得注意的是,字節 Seed 最新的工作 (https://arxiv.org/abs/2505.07293),也用了類似 few-shot 和 attention 結合的方法。

接下來值得探索的方向包括:

1. 將方法遷移至法律、醫療、工程等復雜結構任務;

2. 引入人類反饋或語言理解偏好,進一步增強「任務對齊」能力;

3. 結合 prompt 工程,控制示例順序以提升效果;

4. 與合成數據方法融合,構建任務驅動的多源樣本庫。

總之,Data Whisperer 并不是簡單優化效率的技巧,而是揭示了一個事實:

  • 任務對齊不必依賴人類標簽、不必堆數據量。
  • 結構化的推理機制與任務映射,本身就可以引導模型學習方向。

未來的大模型訓練也許不再是「知道做什么」,而是「知道問什么」。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-02-09 11:05:11

大數據用戶畫像技術

2024-08-07 15:27:50

2024-10-29 15:00:00

大模型數據

2014-05-27 15:14:02

廣告

2023-09-18 16:59:06

數據布隆過濾器

2016-01-07 11:25:12

數據模型訓練數據

2021-08-03 22:56:01

大數據流量軟件

2020-08-17 10:53:10

AI

2024-02-07 09:25:52

數據處理快手大模型

2020-06-17 13:02:39

金融科技數據分析

2022-11-28 09:18:03

2016-04-11 14:35:59

機器學習數據挖掘數據模型

2011-08-29 14:33:41

2014-11-04 09:18:33

安全策略安全管理威脅情報

2011-11-07 09:31:20

大數據Hadoop

2025-03-07 15:30:32

2021-07-19 08:00:00

開源數據工具

2022-09-19 15:37:51

人工智能機器學習大數據

2018-04-25 14:42:00

決勝策略數據

2014-04-18 10:05:38

數據分析手游
點贊
收藏

51CTO技術棧公眾號

无码国产精品一区二区免费式直播| 不卡视频一区二区三区| 蜜乳av中文字幕| 日本成人一区二区| 一区二区三区加勒比av| 国产精品毛片va一区二区三区| 国产 日韩 欧美 在线| 日韩一区三区| 亚洲国产另类 国产精品国产免费| 日日碰狠狠躁久久躁婷婷| 黄色网页在线免费看| 成人动漫精品一区二区| 国产精品专区一| 日本一级淫片色费放| 成人在线免费观看网站| 精品88久久久久88久久久| 9久久婷婷国产综合精品性色| 在线观看免费视频你懂的| 久久久久久黄色| 国产传媒一区| 一级特黄特色的免费大片视频| 亚洲午夜精品久久久久久app| 伊人久久综合97精品| 久久久男人的天堂| 韩国精品视频在线观看| 精品动漫一区二区| 国产树林野战在线播放| 国产一级片在线播放| 成人国产在线观看| 成人精品在线观看| 啪啪小视频网站| 一本久久综合| 韩国福利视频一区| 亚洲av无码一区二区三区在线| 精品国产a一区二区三区v免费| 精品国产乱码久久久久久老虎 | 秘密基地免费观看完整版中文| 色天使综合视频| 日韩欧美亚洲范冰冰与中字| 欧美一级片免费播放| 国产精品刘玥久久一区| 国产精品免费av| 欧美一区二区三区在线播放| 午夜18视频在线观看| 成人午夜av电影| 91免费版网站在线观看| 国产乱人乱偷精品视频| 免费成人在线网站| 国产精品久久久久久av福利软件| 黄色av一级片| 日韩精品一二三区| 国产91免费看片| 精品不卡一区二区| 免费亚洲一区| 国产成人黄色av| www五月天com| 肉肉av福利一精品导航| 国产91网红主播在线观看| 中文字幕亚洲乱码熟女1区2区| 国产精品久久久久毛片大屁完整版| 97精品国产97久久久久久| 亚洲精品77777| 国产精品外国| 国产成人免费av| 中文人妻熟女乱又乱精品| 日韩精品欧美精品| 国产啪精品视频| 国产日韩在线观看一区| 国产不卡视频一区二区三区| 成人动漫在线视频| 色香蕉在线视频| 26uuu亚洲综合色欧美| 久久久水蜜桃| 成人精品一区二区三区免费 | 亚洲精品一区二区毛豆| 欧美激情二区| 一区二区三区在线免费视频 | 国产又黄又粗又猛又爽的| 91一区二区| 欧美精品在线看| 国产精品500部| 日韩高清在线不卡| 91色视频在线观看| 人妻精品无码一区二区| 26uuu色噜噜精品一区二区| 日韩亚洲一区在线播放| 高清全集视频免费在线| 亚洲第一在线综合网站| 精品www久久久久奶水| 成人全视频在线观看在线播放高清| 欧美精品久久久久久久多人混战| av漫画在线观看| 国产成人ay| 欧美成人午夜免费视在线看片| 国产午夜福利精品| 美女网站视频久久| 国产精品日韩一区二区| 中文字幕在线观看日本| 亚洲国产美国国产综合一区二区| 50路60路老熟妇啪啪| 欧一区二区三区| 亚洲欧美日韩天堂一区二区| 五月天激情丁香| 亚洲欧美日韩专区| 99re在线播放| yw视频在线观看| 亚洲成人7777| 九九热精品国产| 免费av一区| 欧美夫妻性生活xx| 中文字幕在线观看第二页| 国产91高潮流白浆在线麻豆| 日韩中文不卡| 三级中文字幕在线观看| 正在播放亚洲一区| 日本精品在线观看视频| 在线国产日韩| 91在线免费视频| 韩国三级在线观看久| 亚洲一区二区影院| 亚洲天堂av一区二区| 一本色道久久综合亚洲精品酒店| 欧美国产日韩一区二区三区| 中文字幕+乱码+中文乱码www| 99久久伊人网影院| 日韩不卡一二区| 四虎地址8848精品| 国产一区二区激情| 五月激情六月丁香| 成人午夜免费av| av动漫在线播放| 91成人app| 中文字幕综合在线| 国产一级片一区二区| www一区二区| 欧美一区二区中文字幕| 成人另类视频| 久久频这里精品99香蕉| 亚洲av综合色区无码一二三区 | 亚洲自拍三区| 日本肉肉一区| 亚洲欧美中文日韩v在线观看| 精品无码黑人又粗又大又长| 国产成人免费在线视频| 久久www视频| 日韩成人在线看| 久久最新资源网| 国产99对白在线播放| 亚洲欧洲日产国产综合网| 亚洲天堂av线| 日韩精品网站| 国产精品视频区| 米奇777四色精品人人爽| 欧美日韩一区二区三区四区五区| 久久视频精品在线观看| 免费在线观看不卡| 亚洲一区二区三区精品在线观看| 欧美高清xxx| 久久精品国产v日韩v亚洲| 91亚洲精品国偷拍自产在线观看 | 亚洲国产黄色片| 国产又大又黑又粗免费视频| 99国产一区二区三精品乱码| 日韩av新片网| 精品一区毛片| 国产精品免费视频xxxx| 黄色免费网站在线观看| 日韩欧美激情在线| 国产精品a成v人在线播放| 93久久精品日日躁夜夜躁欧美 | 小泽玛利亚一区二区免费| 精品一区二区三区香蕉蜜桃| www.-级毛片线天内射视视| 日韩视频一二区| 欧美精品18videosex性欧美| 日本一级在线观看| 精品1区2区3区| 九九九久久久久| 91色九色蝌蚪| 色www免费视频| 欧美三级乱码| 欧美精品亚洲| 国产精品日本一区二区三区在线| 久久久久久久亚洲精品| 你懂的在线网址| 91麻豆精品国产91久久久更新时间 | 国产精品网站免费| 欧美日韩国产高清电影| 97免费资源站| 第四色男人最爱上成人网| 久久亚洲精品视频| 日产精品久久久久久久性色| 欧美精品一卡两卡| 欧美日韩精品区| 中文字幕在线不卡一区| 日韩无码精品一区二区| 秋霞午夜av一区二区三区| 黄色片免费在线观看视频| 妖精一区二区三区精品视频| 亚洲r级在线观看| 天堂√中文最新版在线| 久久精品视频导航| 免费国产在线观看| 精品人在线二区三区| 在线观看中文字幕码| 黄色91在线观看| 日韩一区二区不卡视频| 91免费国产视频网站| xxxxwww一片| 久久国产精品第一页| 一女被多男玩喷潮视频| 91精品福利| 少妇精品久久久久久久久久| 久久大胆人体视频| 69堂成人精品视频免费| 99九九久久| 欧美一级电影久久| 久久一卡二卡| 俺也去精品视频在线观看| 涩涩视频在线观看免费| 精品国产乱码久久久久久图片 | 国产一区视频网站| 91热这里只有精品| 久久精品二区三区| 国产色一区二区三区| 午夜性色一区二区三区免费视频| 亚洲人成网站在线观看播放| 国产a久久精品一区二区三区 | 三级网站在线看| 日韩一区二区三区视频在线| 亚洲图片中文字幕| 欧美怡红院视频| 中文字幕在线播| 欧美性精品220| 天堂网av手机版| 黄色一区二区三区| 国产女同在线观看| 亚洲h精品动漫在线观看| 久久久久久天堂| 亚洲综合一二三区| 免费一级黄色大片| 亚洲中国最大av网站| 草视频在线观看| 亚洲一区在线观看网站| 欧美人与禽zozzo禽性配| 一区二区视频在线| 精品无码人妻一区二区三区品 | 亚洲一区二区久久久| 国产永久免费高清在线观看视频| 亚洲欧洲激情在线| 超碰在线影院| xxx一区二区| 黄网站免费在线观看| 久久成人这里只有精品| 69成人在线| 久久久久久久久网站| 国产理论在线| 日本亚洲欧美三级| 日本一道高清亚洲日美韩| 国产精品视频xxx| 亚洲欧美久久精品| 亚洲一区二区三| 成人直播在线观看| 麻豆久久久9性大片| 精品国产aⅴ| 日韩第一页在线观看| 国内精品久久久久久久97牛牛| 免费特级黄色片| 久久国产成人| 亚洲综合欧美在线| 国产成人h网站| 国产网站无遮挡| 国产精品免费av| 久久久久久久福利| 欧美性xxxx在线播放| 黄色污污视频软件| 91精品一区二区三区久久久久久| 后入内射欧美99二区视频| 日韩高清欧美高清| 老司机av在线免费看| 久久久亚洲欧洲日产国码aⅴ| 国产精品迅雷| 91欧美精品午夜性色福利在线 | 亚洲成人久久久| 激情综合闲人网| 久久影院模特热| 色网在线免费观看| 国产狼人综合免费视频| aaa国产精品| 日韩精品电影网站| 国产精品久久| 别急慢慢来1978如如2| 国产成人在线色| 级毛片内射视频| 一区二区免费在线| 羞羞色院91蜜桃| 亚洲第一视频在线观看| 在线免费观看黄色网址| 国模吧一区二区三区| 欧美另类激情| 久久精品国产第一区二区三区最新章节 | 在线视频精品一区| 国产精品毛片在线看| 天天色天天干天天色| 久久久www免费人成精品| www.av视频| 欧美午夜片在线看| 色欲av永久无码精品无码蜜桃| 久久久成人精品视频| 久久毛片亚洲| 痴汉一区二区三区| 亚洲国产成人精品女人| 国产天堂在线播放| av激情亚洲男人天堂| 久久免费看少妇高潮v片特黄| 色婷婷亚洲综合| 日批视频在线播放| 欧美激情精品久久久久久黑人| 国产极品一区| 免费在线成人av| 亚洲欧洲另类| 免费欧美一级片| 亚洲欧洲国产日本综合| 无码人妻av一区二区三区波多野 | 成人啪啪18免费游戏链接| 国产精品卡一卡二| 懂色av蜜臀av粉嫩av分享吧最新章节| 精品国一区二区三区| 二区在线播放| 91日韩在线视频| 91亚洲国产高清| www欧美激情| 欧美国产激情二区三区| 台湾佬中文在线| 亚洲精品720p| 擼擼色在线看观看免费| 国产精品久久久久久久久久久久冷| 香港欧美日韩三级黄色一级电影网站| 手机看片福利盒子久久| 国产日韩精品一区二区三区| 天码人妻一区二区三区在线看| 亚洲精品狠狠操| 黄色18在线观看| 久久精品日韩| 国产日韩综合| 丝袜美腿中文字幕| 欧美日韩一区二区在线| 日韩一二三四| 奇米四色中文综合久久| 亚洲综合小说图片| 午夜免费精品视频| 1024国产精品| 精品人妻无码一区二区| 欧美激情国产精品| 加勒比色老久久爱综合网| 人妻少妇精品无码专区二区| www国产精品av| jizz国产在线观看| 最新国产精品拍自在线播放| 电影91久久久| 久久亚洲国产成人精品无码区| 成人免费视频网站在线观看| 国产又黄又粗又爽| 伊人男人综合视频网| 国产精品一站二站| www.夜夜爱| 91美女精品福利| 久草视频在线免费| 久久国产精品亚洲| 国产精品自在| 国产v亚洲v天堂无码久久久 | 久久国产精品第一页| 国产成人无码aa精品一区| 亚洲国产精品va在线| 欧洲精品一区二区三区| 四虎4hu永久免费入口| 97久久精品人人爽人人爽蜜臀| 日本免费在线观看视频| 日韩中文字幕精品| 国产精品白浆| 日本成人中文字幕在线| 亚洲精品高清在线| 青青草超碰在线| 成人av在线亚洲| 亚洲国产一区二区三区a毛片 | 西西人体44www大胆无码| 国产精品白嫩初高中害羞小美女| 久久精品免费一区二区三区| 中国免费黄色片| 在线观看欧美黄色| 黄色在线观看视频网站| 日韩欧美一区二区三区四区五区| 国产在线看一区| 中文在线第一页| 欧美激情a∨在线视频播放| 欧美一级精品| 日本不卡视频一区| 3d成人动漫网站| 最新日韩三级| 亚洲人成无码网站久久99热国产 |