LeCun 70頁長篇巨作！自監(jiān)督學(xué)習(xí)「葵花寶典」，手把手教你學(xué)會(huì)

作者：新智元 2023-04-26 13:51:57

人工智能新聞

自監(jiān)督學(xué)習(xí)入門指南，LeCun 70頁論文都講透了。

一本自監(jiān)督學(xué)習(xí)全套攻略來了！

今天，Yann LeCun、田淵棟等機(jī)構(gòu)的研究者共同發(fā)表了一篇70頁論文「自監(jiān)督學(xué)習(xí)的食譜」。

LeCun稱，你曾經(jīng)想知道，卻又不敢問的自監(jiān)督學(xué)習(xí)內(nèi)容全在這兒了。

先來看看這篇論文陣容有多強(qiáng)大，除了Meta AI的研究員，還匯集了紐約大學(xué)、馬里蘭大學(xué)、加利福尼亞大學(xué)戴維斯分校、蒙特利爾大學(xué)等6所大學(xué)研究人員的智慧。

可想而知，這篇論文含金量有多足了。

論文地址：https://arxiv.org/pdf/2304.12210.pdf

自監(jiān)督學(xué)習(xí)（SSL），被稱為人工智能的暗物質(zhì)，是推進(jìn)機(jī)器學(xué)習(xí)發(fā)展的一條有希望的道路。

然而，就像烹飪一樣，SSL是一門精致的藝術(shù)，有很高的門檻。

盡管人們對(duì)許多組件非常熟悉，但成功地訓(xùn)練一個(gè)SSL，需要做出從假設(shè)任務(wù)，到訓(xùn)練超參數(shù)等一系列令人眼花繚亂的選擇。

這篇最新論文的目標(biāo)就是，降低進(jìn)入SSL研究的門檻，像烹飪書方式一樣提供最新的「SSL食譜」。

Meta的研究科學(xué)家田淵棟表示，如果你想做SSL研究，就來看看這本書吧。

70頁巨長論文看似讓人勸退，但其實(shí)參考文獻(xiàn)就占了26頁。

SSL烹飪指南

這篇論文究竟講了什么內(nèi)容，先來看看滿屏糊臉的目錄。

正如論文作者所稱，要成功烹飪，你必須首先學(xué)習(xí)基本的技巧：切菜、炒菜等。

第一部分主要介紹什么是SSL，重要性，以及寫這本「食譜」的主要原因。

第二部分講了SSL的家族和來源，給出了常用詞匯，從自我監(jiān)督學(xué)習(xí)的基本技巧開始手把手教你。

其中包括：

-SSL的起源

-深度度量學(xué)習(xí)家族：SimCLR/NNCLR/MeanSHIFT/SCL

-自蒸餾家族：BYOL/SimSIAM/DINO

-典型相關(guān)分析家族：VICReg/BarlowTwins/SWAV/W-MSE

-掩碼圖像建模

-自監(jiān)督學(xué)習(xí)的理論統(tǒng)一：SSL理論研究；表征的維度坍縮

-預(yù)訓(xùn)練數(shù)據(jù)

方法有了，接下來，廚師必須學(xué)會(huì)熟練運(yùn)用這些技巧，做出一道美味的菜肴。

這不僅需要學(xué)習(xí)現(xiàn)有的食譜，還要會(huì)自己組合食材，并會(huì)評(píng)估這道菜。

因此，第三部分就是重中之重了。

這部分主要介紹了常見的訓(xùn)練方法，包括超參數(shù)的選擇，如何使用組建，以及評(píng)估方法。

-數(shù)據(jù)增強(qiáng)的作用：multi-crop的作用

-projector的作用

-SSL的統(tǒng)一先驗(yàn)還是SSL在不平衡數(shù)據(jù)上的失敗

-教師學(xué)生架構(gòu)具體策略：移除平均教師的作用；projector在自標(biāo)記SSL中的作用

-標(biāo)準(zhǔn)超參數(shù)的作用：

小批量大小的作用；學(xué)習(xí)率（調(diào)度器）和優(yōu)化器的作用；重量衰減的作用；Transformer注意事項(xiàng)

-高性能掩碼圖像建模技術(shù)

-評(píng)估SSL模型：帶標(biāo)簽評(píng)估；無標(biāo)簽評(píng)估；超越分類；視覺評(píng)估

-提速訓(xùn)練：分布式訓(xùn)練；用FFCV和其他加速訓(xùn)練更快；加速視覺Transformer的訓(xùn)練

第四部分：將自監(jiān)督學(xué)習(xí)擴(kuò)展到圖像和分類之外

-其他數(shù)據(jù)域的策略

-將多個(gè)模式納入SSL訓(xùn)練

-用本地化方法構(gòu)建密集預(yù)測任務(wù)的特征提取器

在此，作者還分享了前沿的研究人員關(guān)于常見訓(xùn)練配置，以及陷阱的實(shí)用技巧。

最后，文章總結(jié)道，自監(jiān)督學(xué)習(xí)（SSL）為提高機(jī)器智能建立了一個(gè)新的范式。

盡管取得了許多成功，但SSL仍然是一個(gè)令人生畏的領(lǐng)域，其中包含了許多復(fù)雜的實(shí)現(xiàn)方法。

由于研究的快速發(fā)展和SSL方法的廣泛應(yīng)用，要了解這個(gè)領(lǐng)域仍然具有挑戰(zhàn)性。

這對(duì)于那些最近加入該領(lǐng)域的研究者和從業(yè)者來說是一個(gè)問題，從而為SSL研究和部署創(chuàng)造了很高的進(jìn)入門檻。

作者希望這個(gè)實(shí)用指南能夠幫助降低這些壁壘，使任何背景的好奇研究者都能探索各種方法，了解各種調(diào)整參數(shù)的作用，并獲得在SSL領(lǐng)域取得成功所需的技能。

AI暗物質(zhì)

2021年，LeCun曾在自家博客上發(fā)文首次提出，自監(jiān)督學(xué)習(xí)是「人工智能暗物質(zhì)」這一概念。

一直以來，人工智能系統(tǒng)在標(biāo)記數(shù)據(jù)中學(xué)習(xí)取得了很大的進(jìn)展。然而，這些模型僅在訓(xùn)練專家模型時(shí)表現(xiàn)得非常好，應(yīng)用非常有限。

實(shí)際上，給世界上所有東西貼上標(biāo)簽是無法窮盡的。這就不得不另辟蹊徑，許多研究者發(fā)現(xiàn)，監(jiān)督學(xué)習(xí)是構(gòu)建更智能「多面手」模型更有力的方法。

如果AI系統(tǒng)能夠收集到比訓(xùn)練數(shù)據(jù)集更深入、更細(xì)致的現(xiàn)實(shí)理解，最終能夠?qū)崿F(xiàn)接近人類智能水平的智能。

我們認(rèn)為，自監(jiān)督學(xué)習(xí)是在人工智能系統(tǒng)中構(gòu)建這種背景知識(shí)和近似常識(shí)形式的最有前途的方法之一。

SSL從數(shù)據(jù)本身獲得監(jiān)督信號(hào)，通常利用數(shù)據(jù)中的底層結(jié)構(gòu)。自監(jiān)督學(xué)習(xí)的一般技術(shù)是預(yù)測任何未觀察到的，或隱藏的輸入部分 (或?qū)傩? 。

此外，還可以預(yù)測，視頻中過去或未來的幀(隱藏?cái)?shù)據(jù))和當(dāng)前的幀(觀察數(shù)據(jù))。

由于SSL使用的是數(shù)據(jù)本身的結(jié)構(gòu)，所以它可以實(shí)現(xiàn)跨模式的能力，比如（視頻、音頻），以及跨大型數(shù)據(jù)集利用各種監(jiān)督信號(hào)。

在計(jì)算機(jī)視覺領(lǐng)域，自監(jiān)督學(xué)習(xí)通過在10億張圖像上訓(xùn)練的SEER等模型，推動(dòng)了數(shù)據(jù)規(guī)模的擴(kuò)大。

SSL計(jì)算機(jī)視覺方法已經(jīng)能夠匹配，或在某些情況下超過模型訓(xùn)練的標(biāo)記數(shù)據(jù)，甚至也包括競爭基準(zhǔn)ImageNet。

此外，自監(jiān)督學(xué)習(xí)也被成功地應(yīng)用在其他形式，如視頻、音頻和時(shí)間序列。

自監(jiān)督學(xué)習(xí)定義了一個(gè)基于未標(biāo)記輸入的前提任務(wù)，以產(chǎn)生描述性和可理解的表示。

在自然語言中，一個(gè)常見的SSL目標(biāo)是在文本中掩蓋一個(gè)詞去預(yù)測周圍的詞。這種目標(biāo)預(yù)測是為了鼓勵(lì)模型來捕捉文本和詞語之間的關(guān)系，并且不需要任何標(biāo)簽。

相同的SSL模型表示可以在一系列下游任務(wù)中使用，比如翻譯文本、匯總、甚至生成文本等任務(wù)。

可見，SSL使人工智能系統(tǒng)能夠從巨量的數(shù)據(jù)中學(xué)習(xí)，這對(duì)于識(shí)別和理解更微妙、更不常見的世界表示模式很重要。

網(wǎng)友熱評(píng)

一位網(wǎng)友對(duì)自己博士要做的領(lǐng)域產(chǎn)生疑問，向LeCun求助：

「還值得攻讀人工智能博士學(xué)位嗎？我想做醫(yī)學(xué)領(lǐng)域的多模態(tài)診斷模型。但隨著最近新模型的涌現(xiàn)，我擔(dān)心會(huì)被大公司悄悄地超越，或者因沒有做出任何重大貢獻(xiàn)而浪費(fèi)時(shí)間。」

在LeCun看來，

1. 大多數(shù)好的想法仍然來自學(xué)術(shù)界。你只管做自己的。沒有必要去超越一個(gè)強(qiáng)大的基準(zhǔn)。

2. 做的研究遠(yuǎn)離工業(yè)界占主導(dǎo)地位的大規(guī)模應(yīng)用就可以了

3. 你認(rèn)為誰在工業(yè)界做人工智能研發(fā)？依舊是博士們。

我認(rèn)為「暗物質(zhì)g」代表了本世紀(jì)MI/GI的主流方法，SSL是其中的一個(gè)先驅(qū)。其背后有著嚴(yán)肅的科學(xué)，這是Brain Cantwell Smith在他2019年的書中論證的一個(gè)核心主題。

從LLaMa的開源，再到LeCun自劍盾學(xué)習(xí)攻略，Meta在開源上做了很多。

網(wǎng)友稱贊，這段時(shí)間，Meta在生成式人工智能和自我監(jiān)督學(xué)習(xí)方面做出了巨大貢獻(xiàn)。對(duì)SSL總結(jié)工作非常好，非常感激。

責(zé)任編輯：張燕妮來源：新智元

監(jiān)督學(xué)習(xí)論文