精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek 等模型訓練所依賴的合成數據,BARE 提出了新思路

人工智能
隨著大型語言模型的不斷發展,合成數據在模型訓練中的重要性日益凸顯。BARE 方法通過結合基礎模型和指令微調模型的優勢,為生成高質量、多樣化的合成數據提供了新的思路。

大家好,我是肆〇柒,在AI圈,大型語言模型(LLM)的訓練對高質量、多樣化數據的需求日益增長。從去年到現在,一些模型在發布的時候,會有論文或者技術報告,里面多多少少都會提及合成數據,并且在多數情況下,合成數據的效果并不差。比如,我所看到的報告中,使用了合成數據的模型如下盤點(應該會有遺漏,它并不完整)。

  • Phi-4Phi-4采用了合成數據生成方法,包括種子數據的精心策劃、多步驟提示工作流程、自我修正機制、指令反轉技術和多代理提示與自我反思等。
  • Alpaca、Vicuna 和 WizardLM通過利用 LLM 生成指令遵循數據,然后對較弱的模型進行指令調優。例如,Alpaca使用GPT-3.5生成指令-響應對,然后微調Llama模型。
  • Qwen2 和 Nemotron-4Nemotron-4在對齊階段利用獎勵模型產生的合成數據占比達到了98%,而Qwen2則在模型訓練中使用了合成數據來提升性能。
  • GPT-4GPT-4在 post train 階段廣泛使用了合成數據,以增強模型的訓練。
  • Llama 3通過讓 LLM 對自己生成的回復打分,并根據打分形成新的訓練數據,再繼續訓練模型。
  • Stable Diffusion在一篇論文中,研究人員使用Stable Diffusion v1.5生成與真實數據集大小相同的合成數據,并結合最大均值差異(MMD)分布匹配損失和視覺引導策略進行訓練。
  • DeepSeek在訓練的多環節采用合成數據,進行模型訓練。并且還是用蒸餾技術,合成高質量數據,實現推理能力從大模型遷移到小模型。

以上,可以看到,越來越多的模型訓練采用了合成數據。所以,人類“肉身”生成的數據其實是有限的,這促使研究人員和開發者轉向合成數據,以滿足模型訓練的需求。BARE(Base-Refine)方法應運而生,通過結合基礎模型(Base Models)和指令微調模型(Instruction-Tuned Models)的優勢,為合成數據生成提供了新的思路。

下面,我們來看一下這篇論文的要點。

背景與動機

隨著大型語言模型的不斷發展,模型的規模和能力都在迅速增長。這導致對高質量、多樣化訓練數據的需求超過了人類生成數據的能力,因此合成數據的使用變得尤為重要。合成數據不僅在低數據領域中發揮著重要作用,還在各種任務中展現出巨大潛力,如數學問題、代碼生成、功能調用和一般推理等。

挑戰與解決方案

盡管指令微調模型在復雜任務中表現出色,能夠生成高質量的內容,但它們在生成多樣化輸出方面存在挑戰。這主要是因為這些模型在后訓練過程中容易出現模式崩潰(Mode Collapse),即無法生成多樣化的輸出。相比之下,基礎模型雖然在指令遵循能力上較弱,但能夠生成更具多樣性的輸出。

下圖是,基礎模型與指令微調模型生成的小學數學問題的成對嵌入相似度直方圖

圖片

從上圖可以看出,基礎模型生成的內容(藍色)在成對嵌入相似度上分布更廣,表明其生成的內容更具多樣性,而指令微調模型生成的內容(橙色)則相似度更高,多樣性較低。

為了解決這一問題,研究人員提出了 BARE 方法。該方法通過兩階段過程,結合基礎模型的多樣性和指令微調模型的質量,生成高質量且多樣化的合成數據。具體來說,BARE 首先利用基礎模型生成多樣化的初始數據集,然后通過指令微調模型對每個數據項進行精細化調整,以提高數據質量。

BARE 方法

多樣性與質量的結合

BARE 方法的核心在于將基礎模型的多樣性和指令微調模型的質量結合起來。基礎模型在生成數據時不受后訓練偏差的限制,能夠更好地代表現實世界數據的多樣性。而指令微調模型則在生成高質量數據方面表現出色,能夠生成更符合人類語言習慣的內容。

不同生成方法在 GSM8K 上的準確率

圖片

從上圖可以看出,使用 BARE 方法生成的數據進行微調后,模型的準確率顯著提高,超過了僅使用基礎模型或指令微調模型生成的數據。

兩階段生成過程

  1. 基礎模型生成階段:利用基礎模型生成多樣化的初始數據集。這一階段只需提供少量的示例(few-shot examples)和基本的 prompt,以確保生成數據的格式正確。也就是,基礎模型會根據給定的 prompt 生成一系列多樣化的輸出。這些輸出可能在質量上參差不齊,但它們的多樣性為后續的精細化調整提供了豐富的素材。例如,在生成小學數學問題時,基礎模型會根據給定的示例生成類似的問題和答案。
  2. 指令微調模型精細化階段:對基礎模型生成的每個數據項進行精細化調整。指令微調模型根據具體的準則(如真實性、正確性)對數據進行優化,以提高數據質量。也就是,指令微調模型會對基礎模型生成的每個數據項進行逐一調整,確保其符合預期的質量標準。例如,在生成數學問題時,指令微調模型會檢查問題的邏輯性和答案的正確性,并進行必要的修正。

實驗結果

研究人員在多個領域對 BARE 方法進行了評估,包括數學問題(GSM8K)、代碼生成(LiveCodeBench)、問答任務(HotpotQA 和 PubMedQA)等。結果顯示,BARE 方法在生成多樣化且高質量數據方面表現優異,顯著提升了下游任務的性能。

數學問題(GSM8K)

在 GSM8K 數據集上,BARE 方法生成的數據顯著提高了模型的準確率。具體來說,使用 BARE 生成的數據進行微調后,模型的準確率從 22.4% 提升至 29.8%。而使用 GPT-4o 作為精細化模型時,準確率更是達到了 35.8%。

Enron 垃圾郵件生成的成對嵌入余弦相似度分布

圖片

從上圖可以看出,基礎模型生成的垃圾郵件內容在成對嵌入相似度上分布更廣,表明其生成的內容更具多樣性。這有助于模型在訓練過程中更好地泛化,提高對不同類型的垃圾郵件的識別能力。

代碼生成(LiveCodeBench)

在 LiveCodeBench 的測試輸出預測任務中,BARE 方法生成的數據使模型的準確率達到了 28.1%,與當前頂級模型的性能相當。這表明 BARE 方法在代碼生成領域具有巨大的潛力。

20 Newsgroups 數據集的生成主題覆蓋情況

圖片

從上圖可以看出,基礎模型在生成 20 Newsgroups 數據集時,覆蓋了更多的主題,表明其生成的內容更具多樣性。這有助于模型在訓練過程中更好地理解不同主題的內容,提高分類的準確性。

問答任務(HotpotQA 和 PubMedQA)

在 HotpotQA 和 PubMedQA 數據集上,BARE 方法生成的數據也顯著提升了模型的性能。BARE 方法在這些任務上的表現優于直接使用指令微調模型生成的數據。

總結

BARE 方法為合成數據生成提供了一種新的思路,未來還有許多值得探索的方向。例如,可以通過進一步優化精細化模型,或引入更多階段的生成過程,來進一步提升數據的多樣性和質量。此外,BARE 方法還可以應用于生成合成評估集,為低數據領域提供更多的支持。

BARE 方法通過結合基礎模型的多樣性和指令微調模型的質量,為合成數據生成提供了一種有效的解決方案。實驗結果表明,BARE 方法在多個領域中顯著提升了下游任務的性能,展示了其在實際應用中的巨大潛力。

看過本文,你有什么看法?歡迎在評論區留言,或加入“覺察流”社群與社區小伙伴一起學習、討論。加入方法,私信回復“入群”“加群”即可。

參考資料

  • BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation

     https://arxiv.org/html/2502.01697v2

  • BARE github Repo

     https://github.com/pgasawa/BARE

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2024-04-18 08:38:15

LLM數據訓練模型

2025-04-11 09:35:34

2023-02-23 07:46:48

學習模型數據倉庫

2022-06-13 11:18:08

合成數據AIML

2023-08-01 15:46:18

數據

2021-03-23 23:17:18

AI人工智能

2025-03-06 00:15:00

3D場景數據

2022-03-25 22:25:10

AI模型訓練

2025-06-04 03:00:00

人工智能AI智能訓練

2022-08-11 08:00:00

機器學習合成數據深度學習

2009-10-21 09:32:45

虛擬化的目標

2024-02-05 09:31:40

仿真駕駛模型

2017-01-23 11:18:16

戴爾

2009-12-03 10:32:21

2017-12-14 09:03:24

租賃數據中心設備

2024-08-19 13:18:12

2021-05-11 20:46:17

Python代碼分類

2023-03-17 16:44:16

AI繪畫

2017-01-10 14:28:01

數據管理大數據SAP
點贊
收藏

51CTO技術棧公眾號

五月婷婷六月婷婷| 久久人人妻人人人人妻性色av| 岛国大片在线观看| 韩国v欧美v日本v亚洲v| 久久久久久久久国产精品| 最新中文字幕视频| www.久久爱.com| 午夜视频在线观看一区二区三区| 奇米影视首页 狠狠色丁香婷婷久久综合 | 久久久久久久久99精品| 国产一区香蕉久久| 日韩久久久久久久久| 日韩www.| 日韩精品在线私人| 亚洲高清av一区二区三区| 免费高潮视频95在线观看网站| 中文字幕二三区不卡| av蓝导航精品导航| 亚洲永久精品视频| 亚洲福利一区| 久久精品99久久久久久久久| 日韩成人av一区二区| 成人短视频软件网站大全app| 黄色精品在线看| 一本—道久久a久久精品蜜桃| 日韩a在线看| 国产一精品一av一免费爽爽| 五月天中文字幕一区二区| 一区二区不卡视频| 久色视频在线| 成人精品gif动图一区| 成人久久一区二区三区| 日韩免费av网站| 亚洲精选一区| 久久99视频免费| 91社区视频在线观看| 亚洲精品国模| 日韩av一区在线| 中文字幕乱视频| 亚洲开心激情| 91精品国产美女浴室洗澡无遮挡| 国产最新免费视频| 九色porny视频在线观看| 亚洲一区二区三区自拍| 在线视频一二三区| 麻豆传媒在线免费看| 国产精品妹子av| 日韩av一区二区三区在线| 四虎成人免费在线| 久久综合久久综合久久| 老牛影视免费一区二区| 天堂91在线| 91原创在线视频| 国产免费一区| 污视频在线免费| 99久久伊人精品| 国产在线视频欧美一区二区三区| 囯产精品久久久久久| 国产不卡视频在线观看| 国产v亚洲v天堂无码| 性生活免费网站| 国产精品一二三| 成人综合电影| 无码精品一区二区三区在线| 99精品久久99久久久久| 精品在线观看一区二区| 嫩草研究院在线观看| 欧美国产日韩精品免费观看| 亚洲欧洲另类精品久久综合| 欧美私人网站| 亚洲综合激情另类小说区| 精品无码国产一区二区三区av| heyzo一区| 色综合色狠狠综合色| 成人午夜激情av| 亚洲日日夜夜| 欧美精品一区二| 亚洲狠狠婷婷综合久久久久图片| 国产精品美女久久久久久不卡 | 久久只有这里有精品| 成人av资源电影网站| 久久综合五月天| 国产在线观看免费视频今夜| 亚洲专区一区二区三区| 国产精品高清在线观看| av网站在线观看免费| 99精品视频在线观看| 午夜精品一区二区三区四区 | 亚洲欧美激情国产综合久久久| 99久久精品国产毛片| 神马影院一区二区| 欧美xxxx少妇| 91久久久免费一区二区| 91香蕉视频在线观看视频| 日本妇女一区| 日韩中文字幕在线免费观看| 久久精品欧美一区二区| 喷白浆一区二区| 国产高清自拍一区| 97人人在线| 亚洲va欧美va人人爽午夜| 免费看黄色一级大片| 77成人影视| 中文字幕不卡av| 日韩精品一卡二卡| 久久机这里只有精品| 久久精品二区| 七七成人影院| 欧美无人高清视频在线观看| 波多野结衣影院| 91九色精品| 日韩av免费看网站| 欧美性受xxxx狂喷水| 欧美高清在线精品一区| 日韩人妻无码精品久久久不卡| 亚洲伦理久久| 国产一区二区三区精品久久久 | 国产va在线视频| 91麻豆精品国产91久久久使用方法 | 日本高清视频精品| 精品人妻伦一区二区三区久久| 国产欧美一区二区精品婷婷| 欧美亚洲精品一区二区| 日本高清精品| 久久精品国产免费观看| 中文字幕免费视频观看| 91麻豆高清视频| 99久久免费观看| 国产精品视频一区二区三区综合| 亚洲午夜国产成人av电影男同| www..com国产| 成人动漫一区二区在线| 欧美一二三不卡| 高清精品久久| 久久久国产精品x99av| 中国黄色一级视频| 国产日韩欧美高清| av片中文字幕| 一本色道久久综合亚洲精品酒店| 欧美一级高清免费播放| 少妇av在线播放| 亚洲成人av电影| 成年女人免费视频| 亚洲福利精品| 国产乱码一区| 2020国产在线| 日韩av在线免费看| 国产精品50页| 99国产精品国产精品毛片| 人妻夜夜添夜夜无码av| 国产丝袜一区| 97成人在线视频| 色资源在线观看| 日韩欧美一区视频| 高清国产在线观看| 蜜桃一区二区三区在线观看| 亚洲日本欧美在线| 国产成年精品| 欧美激情视频三区| 日本黄色免费视频| 欧美性xxxx极品hd满灌| 99久久久无码国产精品衣服| 欧美a一区二区| 裸体大乳女做爰69| 国产精品qvod| 日本在线观看天堂男亚洲| 高清av电影在线观看| 欧美日韩国产精品成人| 国产少妇在线观看| 99久免费精品视频在线观看 | 韩国精品主播一区二区在线观看 | 国产欧美日本| 欧美国产二区| 婷婷精品久久久久久久久久不卡| 久久中文字幕视频| 欧美一级特黄aaaaaa大片在线观看| 亚洲va韩国va欧美va| 国产精品久久久久无码av色戒| 全部av―极品视觉盛宴亚洲| 精品国产一区二区三区在线| 国产精品一区二区三区美女| 国产成人一区二区三区电影| 免费在线观看黄| 亚洲成人av在线播放| 狠狠躁夜夜躁人人爽视频| 亚洲乱码日产精品bd| 亚洲成人av免费在线观看| 日韩不卡免费视频| 日韩成人手机在线| 精品国产一级毛片| 北条麻妃高清一区| 日韩av电影资源网| 欧美国产在线电影| 麻豆国产在线播放| 欧美一区二区成人| 在线视频一区二区三区四区| 亚洲男女一区二区三区| 黄色工厂在线观看| 国产成人av资源| 一级在线免费视频| 亚洲日韩视频| gogogo免费高清日本写真| 色综合久久中文| 亚洲综合一区二区不卡| 综合在线影院| 午夜精品视频网站| 秋霞a级毛片在线看| 亚洲精品视频免费在线观看| 精品国自产拍在线观看| 欧美无砖专区一中文字| 久久一区二区三区视频| 依依成人精品视频| 国产精品久久久视频| k8久久久一区二区三区| 亚洲 自拍 另类 欧美 丝袜| 蜜臀av性久久久久蜜臀aⅴ| 国产极品在线视频| 欧美日韩日本国产亚洲在线| 一区在线电影| 欧美日韩在线观看视频小说| 久久av免费一区| 99re6热只有精品免费观看| 91精品视频大全| 97精品国产99久久久久久免费| 91tv亚洲精品香蕉国产一区7ujn| 青草av在线| 久久国产精品首页| 国产激情在线观看| 日韩在线国产精品| 国产视频网址在线| 亚洲欧美综合v| 三级av在线播放| 亚洲国产一区二区三区四区| 亚洲精品97久久中文字幕| 欧美一区二区三区免费视频| 国产欧美久久久精品免费| 欧美人牲a欧美精品| 中文字幕视频免费观看| 欧洲视频一区二区| 免费黄色一级大片| 欧美视频日韩视频在线观看| 国产偷人爽久久久久久老妇app| 色先锋资源久久综合| 一级片在线观看免费| 色综合欧美在线| 无码人妻久久一区二区三区不卡| 日韩人在线观看| 欧美男人亚洲天堂| 欧美午夜理伦三级在线观看| 国产成人麻豆免费观看| 在线亚洲+欧美+日本专区| 波多野结衣小视频| 欧美亚洲国产bt| 亚洲字幕av一区二区三区四区| 欧美精品一级二级| 国产手机av在线| 欧美变态口味重另类| 黄色av中文字幕| 亚洲精品一区av在线播放| 成年人免费在线视频| 最好看的2019的中文字幕视频| 欧美另类极品| 欧美成人精品一区| av美女在线观看| 日本精品免费观看| 国产成人免费| av在线不卡观看| 欧美调教在线| 色乱码一区二区三在线看| 午夜免费一区| 久色视频在线播放| 喷水一区二区三区| 中文字幕无码毛片免费看| av午夜一区麻豆| 精品人妻中文无码av在线| 一区二区三区四区蜜桃| 99热国产在线观看| 欧美三级电影在线观看| www.麻豆av| 亚洲欧美另类中文字幕| 免费高清在线观看| 久久久久久久久爱| 成人午夜一级| 国产精品日本一区二区| 欧美日韩性在线观看| 国产 欧美 日韩 一区| 久久久精品五月天| 亚洲热在线视频| 久久女同精品一区二区| 免费在线观看a级片| 欧美日韩激情美女| 国产三区在线播放| 亚洲美女视频网| 午夜伦理在线视频| 国产精品第七十二页| 4438全国亚洲精品观看视频| 天天久久人人| 亚洲精品在线二区| 中文字幕线观看| 久久久国产一区二区三区四区小说| 色欲一区二区三区精品a片| 色综合天天综合网天天看片| 99热这里只有精| 一区二区三区四区精品| 成人av影院在线观看| 国产日本欧美在线观看| 伊人久久大香线蕉| 2018中文字幕第一页| 老司机精品视频导航| 人妻丰满熟妇aⅴ无码| 亚洲自拍另类综合| 国产伦精品一区二区三区视频痴汉 | 26uuu国产精品视频| 老司机亚洲精品一区二区| 三级三级久久三级久久18| 91久久夜色精品国产九色| 五月六月丁香婷婷| 欧美激情一区二区| 欧美一级特黄视频| 亚洲大胆人体在线| 日韩另类在线| 亚洲free性xxxx护士hd| 成人精品天堂一区二区三区| 日韩免费毛片视频| 91亚洲永久精品| 日本一区二区不卡在线| 欧美一区二区精品| 欧美成人性生活视频| 国产精品极品在线| 久草成人在线| 国产成人a亚洲精v品无码| 99在线精品观看| 五月天综合在线| 精品国产一区二区三区忘忧草 | 红桃视频国产精品| 天天色天天干天天色| 日韩毛片精品高清免费| 一级全黄少妇性色生活片| 在线中文字幕日韩| 不卡亚洲精品| 一区高清视频| 激情都市一区二区| 国产日产精品一区二区三区的介绍 | 欧美日韩一道本| 2020国产成人综合网| 国产精品500部| 日韩精品在线免费| 天天免费亚洲黑人免费| 日韩电影天堂视频一区二区| 日韩二区在线观看| 精品女人久久久| 在线播放/欧美激情| 伊人在我在线看导航| 国产精品久久国产三级国电话系列| 精品动漫av| 亚洲欧美日本一区| 色94色欧美sute亚洲线路一久| 国产福利免费在线观看| 国产精品中文久久久久久久| 国产精品久久久久久麻豆一区软件| 原创真实夫妻啪啪av| 亚洲成在人线在线播放| 神马久久久久| 国产精品毛片a∨一区二区三区|国| 99精品视频在线| 亚洲欧洲日韩综合| 狠狠色噜噜狠狠狠狠97| 国产福利小视频在线观看| 成人久久一区二区| 亚洲大胆av| 亚洲精品国产精品国自产网站| 欧美日韩久久久一区| 老司机精品影院| 精品国产中文字幕| 蜜臀av性久久久久av蜜臀妖精| 永久免费看黄网站| 亚洲精品www久久久| av一区在线播放| www.av蜜桃| 日本一区二区动态图| 亚洲精品国产精| 国产91色在线|| 欧美色123| 亚洲av无码一区二区三区人| 69p69国产精品| 无遮挡在线观看| 熟女熟妇伦久久影院毛片一区二区| 99精品桃花视频在线观看| 久草热在线观看| 国内精品久久久久伊人av| 欧美日韩在线二区| 国模无码视频一区| 欧美日韩国产首页| 一区二区精品伦理...| 最新av在线免费观看| 26uuu另类欧美| 精品黑人一区二区三区国语馆| 日韩暖暖在线视频| 精品91在线| 日日噜噜夜夜狠狠久久波多野|