精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

華為諾亞開源首個億級中文多模態數據集,填補中文NLP社區空白

數據庫 開源
華為諾亞方舟實驗室的研究者提出了一個大規模的中文的跨模態數據庫 ——「悟空」,并在此基礎上對不同的多模態預訓練模型進行基準測試,有助于中文的視覺語言預訓練算法開發和發展。

在大數據上預訓練大規模模型,對下游任務進行微調,已經成為人工智能系統的新興范式。BERT 和 GPT 等模型在 NLP 社區中越來越受歡迎,因為它們對廣泛的下游任務甚至零樣本學習任務具有很高的可遷移性,從而產生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP 進一步將這一范式擴展到視覺語言聯合預訓練 (VLP) 領域,并在各種下游任務上顯示出優于 SOTA 方法的結果。這一有希望的方向引起了行業和研究人員的極大關注,將其視為通向下一代 AI 模型的途徑。

促成 VLP 模型成功的原因有兩個。一方面,更高級的模型架構(如 ViT/BERT)和訓練目標(如對比學習)通常能夠提升模型泛化能力和學得表示的穩健性。另一方面,由于硬件和分布式訓練框架的進步,越來越多的數據可以輸入到大規模模型中,來提高模型的泛化性、可遷移性和零樣本能力。在視覺或者語言任務中,先在大規模數據(例如圖像分類中的 JFT-300M、T5 中的 C4 數據集)上預訓練,之后再通過遷移學習或者 prompt 學習已被證明對提高下游任務性能非常有用。此外,最近的工作也已經顯示了 VLP 模型在超過 1 億個來自網絡的有噪聲圖像 - 文本對上訓練的潛力。

因此,在大規模數據上預訓練的 VLP 模型的成功促使人們不斷地爬取和收集更大的圖文數據集。下表 1 顯示了 VLP 領域中許多流行的數據集的概述。諸如 Flickr30k、SBU Captions 和 CC12M 等公開可用的視覺語言(英語)數據集的樣本規模相對較小(大約 1000 萬),而規模更大的是像 LAION-400M 的數據集。但是,直接使用英文數據集來訓練模型會導致中文翻譯任務的性能大幅下降。比如,大量特定的中文成語和俚語是英文翻譯無法覆蓋的,而機器翻譯往往在這些方面會帶來錯誤,進而影響任務執行。

目前,社區缺乏大規模公開可用的中文數據集,不僅導致社區發展受阻,而且每項工作都使用一個私密的大型數據集來實現,達到一個其它工作無法公平比較的驚人性能。

為了彌補這一差距,華為諾亞方舟實驗室的研究者發布了一個名為「悟空」的大型中文跨模態數據集,其中包含來自網絡的 1 億個圖文對。為了保證多樣性和泛化性,悟空數據集是根據一個包含 20 萬個高頻中文單詞列表收集的。本文還采用基于圖像和基于文本的過濾策略來進一步完善悟空數據集,使其成為了迄今為止最大的中文視覺語言跨模態數據集。研究者分析了該數據集,并表明它涵蓋了廣泛的視覺和文本概念。

  • 論文地址:https://arxiv.org/pdf/2202.06767.pdf
  • 數據集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html

研究者還進一步發布了一組使用不同架構(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)大型預訓練模型。本文的主要貢獻如下:

  • 發布了具有 1 億個圖文對的大規模視覺和中文語言預訓練數據集,涵蓋了更全面的視覺概念;
  • 發布了一組使用各種流行架構和方法預訓練好的大規模視覺 - 語言模型,并提供針對已發布模型的全面基準測試;
  • 發布的預訓練模型在數個中文基準測試任務,例如由 17 個數據集組成的零樣本圖像分類任務和由 5 個數據集組成的圖像文本檢索任務,表現出了最優性能。

「悟空」數據集

研究者構建了一個名為悟空的新數據集,該數據集包含從網絡收集的 1 億個圖文對。為了涵蓋足夠多樣的視覺概念,悟空數據集是由包含 20 萬個詞條的查詢列表里收集的。這個基礎查詢列表取自 Yan Song 等人的論文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根據華為的海量新聞文本語料庫中出現的中文單詞和短語的頻率進行過濾后所得。

查詢列表建好后,研究者在百度圖片搜索每個查詢,以獲取圖片 URL 列表和相應的標題信息。為了保持不同查詢結果間的平衡,他們每個查詢最多搜索 1000 個樣本。然后使用先前獲得的圖像 URL 下載圖像,最終共收集了 1.66 億個圖文對。然后按照慣例,研究者通過下文的一系列過濾策略來構建最終的悟空數據集。下圖 2 顯示了悟空數據集中的一些樣本。

基于圖像的過濾

研究者首先根據圖像的大小和長寬比對數據進行過濾。只保留長或寬超過 200 像素且長寬比不超過 3 的圖像。這種方式過濾掉了太小、太高或太寬的圖像,因為這些圖像在預訓練期間經過上采樣和方形裁剪等圖像增強手段后,可能變成低分辨率。

基于文本的過濾

其次,為了使選擇的樣本具有對應圖像的高質量中文描述,研究者根據圖像所附文本的語言、長度和頻率對數據進行進一步過濾。具體來說,他們首先檢查了語言和長度,保留了包含至少一個但少于 32 個漢字的句子。同時還會丟棄無意義的圖像描述,例如「000.jpg」。之后,與太多圖片配對的文字通常與圖片內容無關,例如「查看源網頁」(View source page)、「展開全文」(Expand text)、「攝影部落」(Photography community)。實際中,研究者將此閾值設置為 10,即丟棄掉在收集的整個語料庫中出現超過 10 次的圖文對。

為了保護文本中出現的個人隱私,研究者將人名替換為特殊標記「< 人名 >」,此外,他們還構建了一個中文敏感詞列表,包含敏感詞的圖文對也被丟棄。

應用上述過濾策略后,研究者最終得到一個約 1 億對的數據集。下表 2 顯示了數據集的統計量:數據集文本中有 20,442 個唯一 token,每個描述中的平均 token 數為 22。

在下圖 3 中,研究者可視化了數據集中單詞(由一個或多個 token 組成)的分布。然后,他們使用中文文本分詞工具 Jieba 來截取單詞并構建數據集的詞云。

方法架構

文本 - 圖像聯合對齊

與最近經過充分驗證的方法類似,研究者采用了對比預訓練架構,如下圖 1 所示。他們使用一個帶有基于 Transformer 的文本和圖像編碼器的雙流模型。這兩個編碼器將文本和視覺輸入 token 轉換為相同維度的嵌入。在這個學習到的聯合嵌入空間中,研究者使用對比損失來鼓勵成對的圖像和文本具有相似的嵌入,而不成對的具有不同的嵌入。

模型架構

由于視覺和文本模態的編碼器是解耦的,因此可以為這兩種模態探索不同的編碼器架構。研究者試驗了三種視覺編碼器變體(即 ResNet、Vision Transformer 和 Swin Transformer)以及一個單一的類 BERT 文本編碼器來訓練中文 VLP 模型。

預訓練目標

跨模態對比學習是一種從成對的圖像 - 文本數據中訓練模型的特別有效的方法,它可以通過區分成對和不成對的樣本同時學習兩種模態的表示。研究者遵循 FILIP(Yao 等人,2022)中的公式標記,使用

去定義圖像樣本集合,同時

代表文本數據。給定一個圖像樣本

和一個文本樣本

,該模型的目標是讓聯合多模態空間中的配對的圖像和文本表示接近,不配對的則遠離。

在這項工作中,研究者探索了兩種衡量圖像和文本之間相似度的方法。圖像和文本的學得表示分別標記為

。這里,n_1 和 n_2 是每個圖片和文本中的(未填充的)詞 token 的數量。

LiT-tuning

研究者受到了最近提出的一種微調范式 LiT-tuning(Locked-image Text tuning)的啟發,該范式表明權重固定的圖像編碼器和可學習的文本編碼器在 VLP 模型中效果最好。他們在對比學習設置中也采用了同樣的方式,即只更新文本編碼器的權重,而不更新圖像編碼器的權重。

具體而言,研究者采用的 LiT-tuning 方法旨在教一個中文的文本編碼器從一個現有的圖像編碼器中讀取合適的表示,該圖像編碼器是在英文數據集上預訓練過。他們還為每個編碼器添加了一個可選的可學習線性變換層,它將兩種模式的表示映射到相同的維度。LiT-tuning 之所以效果很好,是因為它解耦了用于學習圖像特征和視覺語言對齊的數據源和技術(Zhai 等人,2021b)。并且,圖像描述器事先使用相對干凈或(半)手動標記的圖像進行了良好的預訓練。

研究者將這一想法擴展到多語言數據源,并嘗試將在英文數據源上預訓練的固定了的圖像編碼器和可訓練的中文文本編碼器對齊。此外,LiT-tuning 方法顯著加快了訓練過程并減少了內存需求,因為它不需要為視覺編碼器計算梯度。

實驗結果

下表 3 描述了模型參數和視頻編碼器的細節。

零樣本圖像分類。研究者在 17 個零樣本圖像分類任務上評估預訓練模型。零樣本圖像分類的結果如下表 5 所示。他們比較了使用不同視覺編碼器的多個 LiT -tuning 模型,即從 CLIP 或 Swin Transformer 加載現有的視覺編碼器并在訓練階段固定它們的權重。結果發現,使用 token 水平的相似度比使用全局相似度會帶來更顯著的改進。

圖文檢索任務。研究者在兩個子任務,即以圖搜文和以文搜圖上做了評估。下表 6 和表 7 分別顯示了零樣本設定和可以微調的圖文檢索的結果。對于零樣本設置,相比其它模型,Wukong_ViT 在 4 個數據集中的 3 個上取得了最好的結果,而 Wukong_ViT-500M 在更大的 MUGE 數據集上取得了最好的結果。對于微調設置,Wukong_ViT-500M 則在除 AIC-ICC 之外的所有數據集上都取得了最好的結果,其中 Wukong_ViT 效果最好。

詞匯 - 圖塊對齊的可視化。研究者使用預訓練模型 Wukong_ViT 和 Wukong_Swin 進 行可視化。如圖 4 所示,其中可視化來自中文的 ImageNet 的六個標簽(即豆娘、救生艇、蜂鳥、平板手機、教堂和電風扇)的圖像。然后應用與 FILIP(Yao 等人,2022)相同的可視化方法來對齊文本和圖塊 token。

從下圖 4 中,研究者發現兩種模型都能夠預測目標物體的圖像塊。對于具有更多圖像塊的 Wukong_ViT,這種詞匯 - 圖塊對齊比 Wukong_Swin 更加細粒度。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-02-16 13:46:00

模型數據開源

2024-11-13 15:00:00

模型數據

2025-05-14 08:51:00

2024-07-29 08:52:00

模型數據

2020-07-06 10:59:00

智慧城市大數據人工智能

2025-09-26 10:58:03

AI視覺語言模型

2011-03-21 14:48:20

魂芯一號

2023-08-30 08:30:03

2024-12-18 18:57:58

2022-08-05 08:48:16

員工技能數據

2025-07-16 09:44:29

2023-03-30 15:54:50

開源安全

2022-07-17 13:07:26

模型開源

2025-08-18 08:30:00

AI模型開源

2023-04-05 19:33:14

文心一言ChatGPT人工智能

2015-07-17 11:00:30

DCIMBMS數據中心

2024-01-29 07:15:00

模型數據

2024-03-25 12:30:18

AI訓練開源
點贊
收藏

51CTO技術棧公眾號

91视频一区二区三区| 欧美日韩天堂| 欧美日韩一区成人| 永久免费看av| 日韩福利一区二区| 蜜臂av日日欢夜夜爽一区| 在线成人免费网站| 动漫美女无遮挡免费| 电影亚洲精品噜噜在线观看| 中文字幕高清不卡| 国产一区二区久久久| 成人黄色片在线观看| 激情视频一区二区三区| 一区二区三区天堂av| 久久久老熟女一区二区三区91| 日本一区免费网站| 亚洲午夜激情网页| 亚洲欧洲一二三| 无码h黄肉3d动漫在线观看| 青青草97国产精品免费观看无弹窗版| 欧美激情第三页| 国产视频123区| 日韩激情网站| 欧美成人女星排行榜| 欧美大尺度做爰床戏| cao在线视频| 亚洲美腿欧美偷拍| 色噜噜狠狠色综合网| 熟妇高潮一区二区高潮| 国内外成人在线| 国产精品狠色婷| 久久久久久91亚洲精品中文字幕| 欧美一区二区三区另类| 在线精品国产欧美| 熟女俱乐部一区二区视频在线| 久久69av| 4hu四虎永久在线影院成人| 欧美精品成人网| 在线免费三级电影网站| 亚洲一区二区三区影院| 欧美性受xxxx黑人猛交88| 国产精品一区二区婷婷| 久久综合国产精品| 久久国产精品高清| 日本黄色不卡视频| 国产成人免费视频精品含羞草妖精 | 91久久在线| 欧美国产日韩精品| 久久久国产精品人人片| 欧美在线日韩| 九九热精品视频| 午夜少妇久久久久久久久| 欧美韩日高清| 不卡av在线网站| 少妇被躁爽到高潮无码文| 99久久夜色精品国产亚洲狼| 色偷偷av一区二区三区| 久久精品亚洲a| 久久久久亚洲| 精品自在线视频| 久久久久久天堂| 亚洲二区视频| 欧洲亚洲免费在线| 日韩欧美国产另类| 免费一区二区视频| 国产一区二区在线免费视频| 国产精品女人久久久| 国内不卡的二区三区中文字幕| 成人免费视频网| a在线观看视频| 成人在线综合网站| 蜜桃av噜噜一区二区三| 国产二区视频在线观看| 国产精品久久久一区麻豆最新章节| 亚洲美女网站18| 国产盗摄在线观看| 亚洲国产婷婷综合在线精品| 69堂免费视频| 视频在线日韩| 欧美一区二区在线不卡| 男男一级淫片免费播放| 美女毛片一区二区三区四区| 中文字幕亚洲字幕| 国产一级做a爱免费视频| 亚洲欧美日韩一区在线观看| 国产精品久久久久久久久久久新郎 | 色婷婷av777| 色喇叭免费久久综合网| 欧美猛少妇色xxxxx| 台湾佬中文在线| 国产综合久久久久影院| 久久伦理网站| 国产精品实拍| 欧美日韩免费观看中文| 三上悠亚在线一区二区| 91嫩草精品| 国产一区二区精品丝袜| 国产精品16p| 青青草视频一区| 好吊妞www.84com只有这里才有精品| 黄色av免费在线观看| 亚洲黄色性网站| 精品久久久久久无码国产| av在线亚洲一区| 日韩久久精品成人| 九九热最新地址| 日本亚洲欧美天堂免费| 国产日韩一区二区三区| 欧美天天影院| 日韩欧美极品在线观看| 三级黄色片免费观看| 国产精品一在线观看| 欧美xxxx做受欧美.88| 影音先锋在线国产| 国产激情视频一区二区在线观看 | 午夜久久免费观看| 日韩免费av一区二区| 亚洲av无码国产综合专区 | 精品国产乱码久久久久久夜甘婷婷| 日本aaa视频| 欧美福利影院| 国产精品网址在线| 国产一二三区在线视频| 天天综合色天天| 又黄又色的网站| 国产精品黑丝在线播放| 国产福利精品在线| 亚洲三级中文字幕| 午夜精品福利久久久| 国产精品熟女一区二区不卡| 国产精品97| 国产精品一区二区3区| 免费一级在线观看播放网址| 午夜欧美一区二区三区在线播放| 日本r级电影在线观看| 久久中文亚洲字幕| 国产精品永久免费| 国产香蕉视频在线看| 欧美午夜美女看片| 亚洲最大的黄色网| 99精品视频免费观看视频| 99视频免费观看蜜桃视频| 亚洲国产精品精华素| 欧美理论片在线| 亚洲女同二女同志奶水| 蜜臀av性久久久久蜜臀aⅴ流畅| 日韩精品伦理第一区| 日韩欧美精品电影| 搡老女人一区二区三区视频tv| 黄色网址中文字幕| 中文字幕高清不卡| 国产精欧美一区二区三区白种人| 色婷婷一区二区三区| 国产精品一二三视频| 日韩毛片久久久| 91精品国产色综合久久不卡蜜臀| 久久噜噜色综合一区二区| 久久 天天综合| 可以免费看的黄色网址| 在线观看视频一区二区三区| 欧美激情亚洲视频| 五月天婷婷在线观看| 欧美日韩亚洲激情| 亚洲精品成人无码| 麻豆一区二区三| 国产又黄又爽免费视频| 亚洲综合色婷婷在线观看| 欧美肥婆姓交大片| 亚洲人视频在线观看| 日本乱码高清不卡字幕| av在线免费播放网址| 国产一区二区在线观看免费| 成人在线免费观看视频网站| 激情小说亚洲图片| 欧日韩不卡在线视频| av在线之家电影网站| 欧美一区二区三区四区久久| 久久高清免费视频| 国产欧美精品一区二区三区四区| 亚洲最大天堂网| 伊人成人网在线看| 天堂一区二区三区| 亚洲一区二区三区中文字幕在线观看 | 欧美乱妇15p| 久久婷婷一区二区| 久久精品欧美一区二区三区麻豆| 中文字幕在线综合| 在线观看的日韩av| 日韩jizzz| 日韩精品一区二区三区中文字幕 | 在线观看日韩视频| 亚洲精品中文字幕成人片| 日韩欧美中文字幕在线观看| 91n在线视频| av一二三不卡影片| 中文字幕亚洲欧洲| 亚洲欧美成人综合| 51xx午夜影福利| 在线日本制服中文欧美| 亚洲综合日韩中文字幕v在线| 日本在线影院| 欧美乱妇40p| 日韩欧美小视频| 亚洲欧美一区二区三区四区| www.黄色片| 在线欧美日韩精品| 亚洲免费激情视频| 亚洲三级视频在线观看| 无码人妻aⅴ一区二区三区69岛| 国产精品99精品久久免费| 日本不卡在线观看视频| 亚洲欧美文学| 亚洲综合五月天| 国产一区二区三区不卡视频网站| 国产精品视频免费一区| 伊人久久综合网另类网站| 57pao成人永久免费视频| 伊人手机在线| 久久精视频免费在线久久完整在线看| 欧美挠脚心网站| 欧美电视剧在线看免费| 97人妻精品一区二区三区| 色噜噜狠狠一区二区三区果冻| 亚洲国产精品成人无久久精品| 亚洲精品国产a| а天堂中文在线资源| 久久久99精品免费观看不卡| 中国一级特黄录像播放| 高清不卡在线观看| 国产毛片久久久久久| 理论电影国产精品| 奇米影音第四色| 毛片一区二区| 久章草在线视频| 亚洲免费在线| 久久国产成人精品国产成人亚洲| 在线视频观看日韩| 日韩国产成人无码av毛片| 欧美日韩p片| 人人妻人人澡人人爽欧美一区 | 日本手机在线视频| 欧美日韩亚洲一区二区三区在线| 最近中文字幕免费mv| 99成人超碰| 黄色一级片网址| 中文精品电影| 日韩 欧美 自拍| 91精品蜜臀一区二区三区在线| 超碰免费在线公开| 一级毛片免费高清中文字幕久久网| 一本色道久久99精品综合| 成人影院天天5g天天爽无毒影院| 视频一区二区在线| 水蜜桃久久夜色精品一区| 手机成人av在线| 综合一区在线| 精品一区二区三区无码视频| 尤物在线精品| 男女av免费观看| 免费成人在线影院| 中文字幕一区久久| 粉嫩一区二区三区性色av| 女同性恋一区二区三区| 91蜜桃视频在线| 精品国产aaa| 亚洲精品写真福利| 精品无码人妻一区二区三区| 精品国产乱码久久久久久虫虫漫画| 欧美a∨亚洲欧美亚洲| 色噜噜狠狠色综合中国| 亚洲一区二区视频在线播放| 91精品国产高清一区二区三区蜜臀| 亚洲爆乳无码一区二区三区| 亚洲福利视频免费观看| 免费av在线电影| 在线观看欧美www| 韩国中文字幕在线| 69精品小视频| 欧美黄色网络| 国产日韩精品推荐| 欧美日韩一区二区综合| 99久re热视频精品98| 99国产精品99久久久久久粉嫩| 欧美两根一起进3p做受视频| 九色综合狠狠综合久久| 污污内射在线观看一区二区少妇| 久久久久成人黄色影片| 成人免费视频国产免费观看| 天天综合色天天| 国产又粗又长视频| 精品亚洲一区二区三区| 免费黄网在线观看| 69久久夜色精品国产69| 亚洲欧洲一二区| 蜜桃久久影院| 中文字幕人成人乱码| 欧美两根一起进3p做受视频| 国产精品一区二区久久精品爱涩 | 2019中文字幕在线观看| 久久久久久久性潮| 久久精品日产第一区二区三区乱码| 久久在线播放| 男人和女人啪啪网站| 国产又粗又猛又爽又黄91精品| 极品粉嫩小仙女高潮喷水久久 | 国产一区高清| 精品免费日产一区一区三区免费| 97欧美在线视频| 国产成人a亚洲精v品无码| 国产一区二区三区不卡在线观看| 国产精品扒开腿做爽爽| 亚洲综合免费观看高清完整版 | 亚洲一卡二卡三卡| 在线亚洲成人| 特种兵之深入敌后| 国产精品女人毛片| 天堂а√在线中文在线新版 | 亚洲成av人**亚洲成av**| 中国精品一区二区| 亚洲精品之草原avav久久| 美女精品导航| 147欧美人体大胆444| 第一sis亚洲原创| 国产亚洲天堂网| 成人h精品动漫一区二区三区| 亚洲欧美小视频| 欧美精品一卡两卡| 91精品专区| 国产精品男人的天堂| 精品在线观看入口| 国产精品va无码一区二区| 成人爱爱电影网址| 精品视频久久久久| 精品久久一区二区| 午夜激情在线| 91免费观看| 欧美 日韩 国产一区二区在线视频| 国产一级片自拍| 国产精品乱码久久久久久| 国产天堂第一区| 一本大道久久加勒比香蕉| 三级成人黄色影院| 欧美日韩在线精品| 日欧美一区二区| 欧美图片第一页| 91黄色小视频| 国产中文字幕在线看| 国产精品日韩久久久久| 欧美丝袜一区| 911福利视频| 亚洲视频资源在线| 国产成人精品一区二区无码呦| 久久成人18免费网站| 欧美高清hd| 日韩视频免费播放| 成人黄页在线观看| 日韩网红少妇无码视频香港| 日韩成人在线免费观看| 原纱央莉成人av片| 天天爽天天狠久久久| 免费观看在线综合| 午夜爱爱毛片xxxx视频免费看| 欧美一级欧美三级| 国产丝袜在线播放| 快播日韩欧美| 奇米色777欧美一区二区| 中文乱码字幕高清一区二区| 91精品国产91久久久久久一区二区| 91三级在线| 精品一区二区三区日本| 日韩在线a电影| 小向美奈子av| 欧美精品一区二区高清在线观看| 人人草在线视频| 亚洲精品中文字幕在线| 国产精品亚洲一区二区三区在线| 国产在线观看99| 欲色天天网综合久久| 国产免费av国片精品草莓男男| 成人性生活视频免费看| 久久久精品黄色| a级片在线视频| 奇米成人av国产一区二区三区| 99久久九九| 男男做爰猛烈叫床爽爽小说| 欧美色精品在线视频| heyzo中文字幕在线| 色噜噜一区二区| 成人小视频免费在线观看| 乱子伦一区二区三区| 两个人的视频www国产精品| 台湾佬综合网| 国产永久免费网站| 精品免费在线视频| 老司机av在线免费看| 欧美精品欧美精品| 国产成a人亚洲精品| 国产精品sm调教免费专区| 国内精品久久久久久久| 日本a级不卡|