精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練

發布于 2024-4-2 12:02
瀏覽
0收藏

隨著生成模型(如 ChatGPT、擴散模型)飛速發展,一方面,生成數據質量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實數據即將枯竭。


面對這一處境,一個近期的研究熱度是,能否利用生成模型生成的假數據來輔助學習?學界對此也產生了許多爭論:到底是可以左腳踩右腳(bootsrap)地實現 weak-to-strong 的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功?


在近期 ICLR 2024 工作中,北大王奕森團隊針對這一「數據擴充」(Data Inflation)問題展開了深入研究。


他們針對對比學習(如 SimCLR、DINO、CLIP)這一常見的自監督學習場景,從理論和實驗兩方面分析了生成數據對于表示學習能力的影響。為了控制變量,他們保證生成模型和表示學習都只能使用同一個(無監督)真實數據集進行訓練,避免了擴充數據本身帶來的收益。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

論文題目:

Do Generated Data Always Help Contrastive Learning?

論文鏈接:

??https://arxiv.org/abs/2403.12448??

代碼鏈接:

??https://github.com/PKU-ML/adainf??


他們發現,在這種情況下,生成數據并不總是對表示學習有幫助,在很多情況下甚至有害。比如,將 DDPM 的數據直接加入 CIFAR-10 訓練,反而導致分類準確率下降超過 1%(前人工作 [1] 也有類似發現:用生成數據擴充 ImageNet 后 ResNet-50 的分類準確率下降了 2.69%)。進一步分析表明,有兩個關鍵因素影響了生成數據的收益:


1. 真實數據和生成數據的比例。從人的角度來看,生成數據似乎以假亂真,但對于模型訓練而言并非如此。他們發現,真實數據與生成數據的混合比例在 10:1 附近時達到最優,也就是說,1 個真實數據的「訓練價值」約等于 10 個生成數據。這側面說明了二者的差異。


2. 訓練策略的設計。他們發現,在使用生成數據進行訓練時,如果維持原有的訓練參數,則模型幾乎沒有提升。相反,如果隨著數據集的擴充,而相應降低模型訓練所使用的數據增廣的強度,則可以獲得顯著提升。


針對這兩個核心觀察,本文還從自監督理論出發,解釋了他們內在的產生原因,并進而分析了數據量、數據質量與數據增廣強度之間的權衡取舍。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖1 (a): 數據擴充流程 ;(b): 不同擴充策略下的對比學習性能



ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

真實數據比生成數據的「訓練價值」

數據擴充最直觀的一個影響因素是生成數據的質量問題。下圖 2(a)表明,生成數據質量越高,對比學習的下游泛化能力越好,但遺憾的是即使是目前的 SOTA 生成模型 STF,也只讓模型的 Linear Accuracy(在特征上應用線性分類器的分類準確率)比此前僅上升 0.02%。


由于真實圖片包含更豐富、準確的信息,因此擴充后的數據集中真實數據和生成數據的地位不應該相同。本文研究通過在混合時對真實數據復制 N 倍的方式,對真實數據和生成數據進行重加權(Reweighting)。


圖 2(b)表明,混合比例在 10:1 時達到最優(weak augmentation)。本文進一步從理論上分析了重加權的作用,在此不做展開。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖2 (a) 生成數據質量對對比學習的影響; (b) 數據重賦權對對比學習的影響


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

數據增廣與數據擴充,如何權衡?

在對比學習中,數據增強(Data Augmentation)的選取至關重要。通常來說,自監督學習需要使用較強的數據增強(如裁切、掩碼等)來學習的數據表示。為了區分,本文將生成數據視為數據擴充(Data Inflation),二者的區別是,數據擴充是擴大原始數據集的大小,而數據增廣是對每個原始樣本,在訓練過程中進行隨機增強。


直觀上看,數據擴充和數據增廣都會提升數據多樣性但數據增廣可能會改變圖像的語義信息(下圖 3),因此當數據擴充提供了足夠的數據時,便可以減弱數據增廣從而減小因圖像語義信息的改變帶來的誤差。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖3. 數據增強可能改變圖片的語義信息


文中構造了四個不同規模的數據集:CIFAR-10、Half CIFAR-10(CIFAR-10 的一半)、CIFAR-10+10 萬張生成圖片、CIFAR-10+100 萬張生成圖片,通過改變 random resized crop(RRC)來反應不同的數據增廣強度。


下圖 4 中表明最優數據增廣強度隨著數據規模的增大而減小(Half CIFAR-10:0.02,CIFAR-10:0.08,CIFAR-10+0.1M:0.20,CIFAR-10+1M:0.30)。因此當進行數據擴充時,數據增廣強度需要減弱。也就是說,只有當二者搭配得當,才能充分發揮生成數據的作用。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖4. 數據量和數據增廣強度的關系



ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

基于增廣圖的理論理解

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 數據擴充后的下游泛化誤差上界


為了進一步刻畫數據擴充和數據增廣之間的關系,本文從圖的角度來建模對比學習:將數據增強產生的每個樣本視為圖 上的節點,并定義同一樣本產生的數據增廣樣本之間存在一條邊,這樣便在樣本空間構建了一個圖,稱為增廣圖(Augmentation Graph)[2,3]。


這是理解自監督學習的經典理論之一,根據這一建模,對比學習的下游泛化誤差上界可表示為

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區,其中ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區表示由于數據增強造成的標簽錯誤(labeling error),

ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區表示增廣圖拉普拉斯矩陣的第ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區小的特征值,用于反應圖的連通性。


數據擴充和數據增廣對ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

的影響:

  • 數據擴充不會改變標簽錯誤ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區,但可以提升圖的連通性(ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大)(下圖 5 (a))。
  • 數據增廣數據增廣強度增加,會使得 labeling errorICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大(圖 5 (b)),但同時使不同樣本之間的交疊部分增加,即增廣圖的連通性增強(ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區增大)(圖 5 (c))。


因此當數據擴充提升數據規模從而提供了足夠的圖的連通性時,為了進一步減小下游泛化誤差,可以減弱數據增廣強度從而使得 減小。反之數據規模比較小時,則需要更強的數據增強去獲得更好的圖的連通性。也就是說,數據擴充和數據增強在對比學習中存在互補作用,當數據擴充后,對應的最優數據增廣強度減小(圖 5(d))。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 圖 5 數據擴充和數據增廣對 labeling error ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區和圖ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區的連通性的影響


基于以上的理解,論文提出自適應的數據擴充 Adaptive Inflation(AdaInf),根據生成數據的質量、大小,動態調整對比學習算法。其中,最重要的兩個指導原則是 1)真實數據和生成數據需賦予不同權重,生成數據質量越差權重應該越小;2)數據量增大后,應該減弱數據增廣強度,減少數據增強的負面作用。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

實驗結果

本文主要考慮生成數據的規模遠大于真實數據的應用場景。為了在計算能力有限的情況下分析這一場景,作者主要考慮 CIFAR 數據集,因為可以在該數據集上采樣大量圖片。


以 CIFAR-10 為例,其中包含 5 萬真實訓練樣本,作者利用生成模型(GAN 或擴散模型)為它們添加 100 萬生成數據。以 10:1 的比例混合之后,作者將 CIFAR 數據集的總規模擴充到 150 萬。為了公平比較,本文保證全訓練過程中,生成模型也只能獲取 5 萬無監督數據。作者采用 SimCLR 作為默認方法并保持默認參數。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 表1. 不同模型和不同數據集下的對比學習線性探測性能


本文在圖像識別任務上表 1 表明,AdaInf 在不同的對比學習模型和不同數據集上的性能顯著好于沒有數據擴充(No Inflation)或者直接進行數據擴充(Vanilla Inflation)。

僅使用基礎的 SimCLR 方法,AdaInf 就可以將 ResNet-18 上的自監督性能從 91.56 提升到 93.42,超越了大部分「魔改」的自監督學習方法,達到 Sota 水平。這進一步驗證了「數據為王」的規律,展示了 scaling 的潛力


消融實驗:本文在下表 2 (a)中研究了 AdaInf 的組成部分:生成數據、數據重賦權、數據弱增廣。結果表明三者的重要性為數據弱增廣 > 數據重賦權 > 生成數據。這反映了數據擴充和數據增廣之間的相互作用對于對比學習的影響很大。


應用場景:作者進一步發現, AdaInf 可以很好地應用的數據缺乏的場景下。如表 2 (b)所示,當 CIFAR-10 每個類僅有 500 個樣本時,AdaInf 可以獲得更明顯的提升。


ICLR 2024 | 雞生蛋蛋生雞?再論生成數據能否幫助模型訓練-AI.x社區

▲ 表2 (a) 消融實驗 (b) 數據匱乏場景下的應用


更多文章細節,請參考原文。

 

本文轉自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/3iHewRj_IIgor_SIedbWjA?

收藏
回復
舉報
回復
相關推薦
中文子幕无线码一区tr| 青青国产91久久久久久| 亚洲精品www久久久久久广东| 亚洲 欧美 日韩 国产综合 在线| 国内精品在线视频| 狠狠色丁香婷婷综合| 高清在线视频日韩欧美| 国产精品国产三级国产专业不| 日韩一级淫片| 欧美亚洲高清一区二区三区不卡| 国产成人亚洲综合无码| 国产在线一在线二| 成人中文字幕合集| 成人免费看片视频| 免费看污视频的网站| 激情自拍一区| 久久久国产精品x99av | 成人免费看视频| 国产精品91一区| 国产一卡二卡在线播放| 色喇叭免费久久综合| 日韩精品在线第一页| 免费人成视频在线播放| 国产91欧美| 日韩欧美有码在线| 免费拍拍拍网站| 午夜在线激情影院| 中文字幕亚洲电影| 日韩性感在线| 免费一级毛片在线观看| av在线播放成人| 超碰97网站| 国产裸体无遮挡| 久久成人羞羞网站| 国产精品三级美女白浆呻吟| 男人天堂2024| 国产一区二区你懂的| 97久久国产精品| 精品一区二区三区四| 欧美国产三区| 九九热精品视频国产| 精品国产视频在线观看| 国产精品久久久久久| 一个色综合导航| 成人无码av片在线观看| 国产精品自拍区| 亚洲欧美制服另类日韩| wwwwxxxx国产| 亚洲丝袜美腿一区| 亚洲裸体xxxx| 熟女高潮一区二区三区| 欧美一区二区三| 国产小视频国产精品| 久久午夜福利电影| 日韩高清欧美| 久久精品亚洲一区| 久草综合在线视频| 欧美久久成人| 国产最新精品视频| 亚洲日本视频在线观看| 久久精品1区| 国产精品入口福利| 91超薄丝袜肉丝一区二区| 久久成人羞羞网站| 51国偷自产一区二区三区| av网站在线免费看| 成人av先锋影音| 久久精品国产精品国产精品污 | 亚洲精品成人精品456| 中国一级黄色录像| 后进极品白嫩翘臀在线播放| 亚洲成在线观看| av动漫免费看| 欧美天堂在线| 精品久久久久久久久久久久久久久久久 | 国产精品一区专区| 激情小说网站亚洲综合网| 青青久草在线| 成人免费小视频| 成人黄色大片网站| 欧美日韩五码| 日韩午夜激情视频| 欧美xxxxx精品| 国产日产一区| 美日韩在线视频| 97免费在线观看视频| 男女激情视频一区| 不卡一卡2卡3卡4卡精品在| 四虎精品在线| 亚洲欧洲韩国日本视频| 欧美 国产 综合| 日韩深夜福利网站| 日韩av在线播放资源| 999久久久国产| 亚洲毛片av| 成人国产精品色哟哟| 午夜福利一区二区三区| 一区在线中文字幕| 女人喷潮完整视频| 日韩欧美激情电影| 中文字幕亚洲一区二区三区五十路 | 黑人乱码一区二区三区av| 久久精品在这里| 日本a在线天堂| 亚洲www.| 日韩va亚洲va欧洲va国产| 色婷婷粉嫩av| 噜噜噜躁狠狠躁狠狠精品视频| 亚洲专区中文字幕| 色哟哟免费在线观看| 色综合色狠狠天天综合色| 亚洲av无一区二区三区久久| 波多野结衣的一区二区三区| 欧美精品福利视频| 国产av精国产传媒| 国产精品激情偷乱一区二区∴| 欧美综合在线播放| 亚洲va欧美va人人爽成人影院| 国产亚洲欧美一区| 黄色在线观看国产| 成人免费高清在线| 国产成人亚洲综合无码| 国产精品一区二区美女视频免费看| 亚洲欧美另类人妖| 五月激情六月丁香| 成人做爰69片免费看网站| 少妇高潮大叫好爽喷水| 日本免费成人| 色777狠狠综合秋免鲁丝| 中文字幕免费高清网站| 99riav久久精品riav| 亚洲 欧美 综合 另类 中字| 国产精选久久| 久久香蕉频线观| 91无套直看片红桃| 国产精品久久久久久亚洲毛片| 精品国产成人av在线免| 亚洲警察之高压线| 浅井舞香一区二区| 亚洲av成人无码网天堂| 五月婷婷久久丁香| 50一60岁老妇女毛片| 亚洲天堂激情| 国产精品综合久久久久久| 久久大胆人体| 精品成人佐山爱一区二区| 久久久.www| 高清在线不卡av| 97视频久久久| 日本午夜精品| 国产激情久久久| 91大神xh98hx在线播放| 欧美日韩国产高清一区| 波多野结衣在线网址| 国产精品正在播放| 福利视频一二区| 中文字幕伦av一区二区邻居| 国产成一区二区| 欧美日韩在线看片| 欧美一区二区视频在线观看| 中文字幕在线观看成人| aaa国产一区| 免费日韩中文字幕| 欧美3p在线观看| 99r国产精品视频| 91在线三级| 国产一区二区三区在线观看视频 | 涩涩视频在线免费看| 亚洲欧美激情另类校园| 亚洲系列第一页| 一区二区在线免费| 黄色性生活一级片| 蜜臀av亚洲一区中文字幕| 2021狠狠干| 欧美变态网站| 国产精品爽爽ⅴa在线观看| 韩国av网站在线| 亚洲第一视频在线观看| 国产熟妇一区二区三区四区| 国产精品久久久久久久久搜平片 | 97久久综合区小说区图片区| 欧洲亚洲妇女av| 黄色网在线免费看| 日韩精品在线视频美女| 一本到在线视频| 亚洲成人午夜电影| 亚洲一级黄色录像| 东方aⅴ免费观看久久av| 欧美精品第三页| 欧美激情自拍| 婷婷亚洲婷婷综合色香五月| 深夜福利一区| 国产免费久久av| 免费h视频在线观看| 日韩视频在线观看免费| 图片区 小说区 区 亚洲五月| 欧美婷婷六月丁香综合色| 国产一级aa大片毛片| 国产精品欧美综合在线| 免费黄色三级网站| 韩国午夜理伦三级不卡影院| 黄色片视频在线免费观看| 中文在线日韩| 日韩欧美一区二区在线观看 | 日韩精品视频免费| 国产三级小视频| 色婷婷av一区二区三区大白胸 | 亚洲性视频h| 亚洲在线色站| 狠狠色狠狠色综合婷婷tag| 动漫3d精品一区二区三区 | 理论不卡电影大全神| 精品国产一区二区三区四区在线观看| 天天干天天舔天天射| 日韩小视频在线观看专区| 中文字幕精品在线观看| 色综合中文字幕| 日韩xxx高潮hd| 亚洲欧美日韩一区二区三区在线观看| 久久av无码精品人妻系列试探| 国产宾馆实践打屁股91| 黄色三级视频在线播放| 久久狠狠亚洲综合| 另类小说第一页| 久久综合九色综合欧美狠狠| 国产亚洲综合视频| 一区二区三区导航| 国产av天堂无码一区二区三区| 午夜视频精品| 白白操在线视频| 午夜精品999| 手机看片日韩国产| 91一区二区| 国产高清免费在线| 99久久99热这里只有精品| 午夜精品区一区二区三| 精品国产乱码| 日本一区二区三区视频在线播放 | 国产精品视频一二| 亚洲精品视频网址| 国产精品视频看| 国产精品久久久久久成人| 国产欧美精品日韩区二区麻豆天美| 菠萝菠萝蜜网站| 久久综合五月天婷婷伊人| a视频免费观看| 久久一留热品黄| 丰满少妇一区二区| 欧美极品少妇xxxxⅹ高跟鞋| 国产亚洲精品精品精品| 中文字幕色av一区二区三区| 国产第一页浮力| 亚洲精品久久7777| 久久精品国产亚洲av香蕉| 亚洲国产精品一区二区久久 | 久久精选视频| 自拍偷拍 国产| 久久 天天综合| 国产亚洲精品成人a| 99精品久久久久久| 久久精品视频18| 亚洲天堂久久久久久久| 免费又黄又爽又色的视频| 亚洲v日本v欧美v久久精品| 欧美一区二区激情视频| 欧美午夜一区二区三区免费大片| 91片黄在线观看喷潮| 亚洲精品在线观| 国产一二三在线观看| 久久精品视频免费播放| 国产经典三级在线| 日韩免费av片在线观看| 日韩免费在线电影| 国产高清一区二区三区| 亚洲精品白浆高清| 最新av在线免费观看| 亚洲视频成人| 亚洲 国产 图片| www.欧美亚洲| 亚洲欧美精品久久| 亚洲成人在线免费| 亚洲最新av网站| 亚洲国产精品va在线看黑人| 毛片免费在线| 欧美日韩高清在线观看| 日韩性xxx| 97神马电影| 精品少妇av| av在线观看地址| 久久成人免费日本黄色| 岛国精品资源网站| 国产精品电影一区二区| 日韩人妻无码一区二区三区99| 欧美亚洲一区二区在线观看| 动漫av一区二区三区| 最新91在线视频| 牛牛精品一区二区| 亚洲一区二区在线播放| 久久不见久久见国语| 蜜臀精品一区二区| 精品综合久久久久久8888| 免费a级黄色片| 亚洲综合色成人| 国产又黄又粗又硬| 精品香蕉一区二区三区| 羞羞污视频在线观看| 国产精品视频免费观看www| 精品福利一区| 一区中文字幕在线观看| 天堂va蜜桃一区二区三区| 无码人妻一区二区三区免费n鬼沢 久久久无码人妻精品无码 | 中文一区一区三区免费在线观看| 不卡av免费在线| aa级大片欧美| 久久精品视频国产| 日韩视频在线你懂得| 午夜看片在线免费| 国产成人精品综合久久久| 亲子伦视频一区二区三区| 91看片淫黄大片91| 国模无码大尺度一区二区三区 | 一区二区三区四区高清精品免费观看| 免费看av在线| 亚洲色图av在线| 性欧美超级视频| 欧美高清性xxxxhdvideosex| aa级大片欧美三级| 特级特黄刘亦菲aaa级| 亚洲精品日产精品乱码不卡| 亚洲天堂一二三| 综合欧美国产视频二区| 久久精品xxxxx| 亚洲精品国产精品国自产观看| 鲁大师成人一区二区三区| 大黑人交xxx极品hd| 欧美日韩国产影院| 视频在线观看你懂的| 91sa在线看| 亚洲另类春色校园小说| 日av中文字幕| 国产网红主播福利一区二区| 老熟妇一区二区三区啪啪| 在线视频一区二区| 国产黄色一区| 亚洲最大免费| 国产尤物一区二区在线| 午夜激情福利网| 欧美变态tickle挠乳网站| 婷婷色在线播放| 国模精品一区二区三区| 性一交一乱一区二区洋洋av| 毛片网站免费观看| 欧洲av一区二区嗯嗯嗯啊| yourporn在线观看中文站| 国产精品久久久久久亚洲调教| 欧美成人自拍| 亚洲国产日韩在线一区| 亚洲午夜久久久| 美国一级片在线免费观看视频| 国产精品久久久久久久久久三级| 日韩欧美一区二区三区免费看| 日本美女视频一区| 亚洲线精品一区二区三区八戒| 熟妇人妻av无码一区二区三区| 国产成人精品久久久| 久久影视一区| 国产调教打屁股xxxx网站| 欧美日韩亚洲一区二区三区| 国产中文字幕在线观看| 91亚洲一区精品| 亚洲激情精品| 又嫩又硬又黄又爽的视频| 日韩欧美一二区| av高清不卡| 欧美日韩视频免费在线观看| 成人av电影免费观看| 波多野结衣视频在线观看| 久久精品人人做人人爽| 精品久久97| 在线不卡一区二区三区| 亚洲成a人片综合在线| 黄色av网站在线看| 99三级在线| 日韩精品色哟哟| 久草资源在线视频| 在线播放国产一区中文字幕剧情欧美 | 国产高清视频色在线www| 日本最新一区二区三区视频观看| 国产一区二区三区高清播放| 制服.丝袜.亚洲.中文.综合懂色| 精品久久久91| 亚洲制服欧美另类| 四虎国产精品免费| 在线免费观看日本一区| 国产三级伦理在线| 性欧美videosex高清少妇| 不卡视频在线观看| 国产模特av私拍大尺度| 日韩免费观看av| 日韩视频三区|