LSTM之父再稱(chēng)ResNet、GAN等網(wǎng)絡(luò)都有他的功勞,網(wǎng)友:自負(fù)>引用數(shù)
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
“現(xiàn)在引用最多的幾個(gè)神經(jīng)網(wǎng)絡(luò)都是建立在我的實(shí)驗(yàn)室成果之上的!”
能說(shuō)出此話的不是別人,正是在深度學(xué)習(xí)領(lǐng)域作出了巨大貢獻(xiàn)的LSTM之父——Jürgen Schmidhube。
但這也不是他第一次為“自己的開(kāi)創(chuàng)性工作沒(méi)得到足夠的尊重”而公開(kāi)發(fā)聲。

在這篇“直抒胸臆”的推文里,他還專(zhuān)門(mén)鏈出了個(gè)博客,里面歷數(shù)了他和他的團(tuán)隊(duì)在LSTM、ResNet、AlexNet和VGG、GAN以及Transformer變體——這五個(gè)赫赫有名的神經(jīng)網(wǎng)絡(luò)上的早期貢獻(xiàn)。
來(lái)看看他是怎么說(shuō)的。
“五大神經(jīng)網(wǎng)絡(luò)都是建立在我的實(shí)驗(yàn)室成果之上”
首先是LSTM (Long Short-Term Memory)。這是Jürgen和他的學(xué)生們?cè)?997年提出的一種新的RNN,解決了神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶的難題。
根據(jù)谷歌學(xué)術(shù),這是20世紀(jì)被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò)。
現(xiàn)在已經(jīng)“滲透”進(jìn)醫(yī)療保健、學(xué)習(xí)機(jī)器人(learning robot)、游戲、語(yǔ)音處理、機(jī)器翻譯等領(lǐng)域,每天被無(wú)數(shù)人使用數(shù)十億次。
其厲害之處不用多說(shuō),大家對(duì)Jürgen的這項(xiàng)成就也沒(méi)啥異議。主要看另外四個(gè):
ResNet
作為21世紀(jì)被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò),Jürgen說(shuō)它引用了他們的Highway Net、然后把它做成了另一個(gè)版本。
Highway Net,是他的學(xué)生們發(fā)明的第一個(gè)具有100多層的真正的深度前饋神經(jīng)網(wǎng)絡(luò)。
它用跳層連接解決了非常深度的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,其性能也與ImageNet上的ResNet差不多。
這倆的爭(zhēng)議很多人都有分析過(guò),雖然兩者都用了跳層連接技術(shù),但選擇的機(jī)制不同;多數(shù)人認(rèn)為ResNet應(yīng)該只是受到了Highway Net的啟發(fā)。
但Jürgen不這么認(rèn)為,他還專(zhuān)門(mén)強(qiáng)調(diào)了一下,Highway Net也是基于LSTM的思想才得以解決深度訓(xùn)練的問(wèn)題的。意思是ResNet“一脈相承”了他兩個(gè)成果。
AlexNet和VGG Net
對(duì)于這倆在引用次數(shù)排第二、第三的神經(jīng)網(wǎng)絡(luò),Jürgen表示:都類(lèi)似DanNet——他們?cè)?011年提出的第一個(gè)贏得圖像識(shí)別比賽的深度卷積神經(jīng)網(wǎng)絡(luò),并且DanNet在AlexNet出現(xiàn)之前贏了4場(chǎng)。
因?yàn)?012年出生的AlexNet論文中引用了DanNet,用到了Jürgen團(tuán)隊(duì)提出的摒棄無(wú)監(jiān)督預(yù)訓(xùn)練為純監(jiān)督學(xué)習(xí)的DNN思想。
而VGG則是同樣采用了DanNet使用小卷積濾波器增加神經(jīng)網(wǎng)絡(luò)深度的track。
GAN
博文中寫(xiě)道,大名鼎鼎的GAN也是Jürgen本人在1990年提出的Adversarial Curiosity原則的應(yīng)用,它們都由兩個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行“對(duì)抗”(Adversarial Curiosity則是一個(gè)叫生成器,一個(gè)叫預(yù)測(cè)器)。
“炮轟”GAN可不是第一次了,Jürgen甚至還公開(kāi)和GAN的提出者battle過(guò),但很多學(xué)者分析,GAN并不能視為Adversarial Curiosity的一個(gè)簡(jiǎn)單變種。
Transformer
最后一個(gè)是Transformer,如今風(fēng)靡的Transformer又和Jürgen有什么關(guān)系呢?
Jürgen說(shuō),Transformer的變體-線性Transformer,在形式上相當(dāng)與他于1991年提出的快速權(quán)重存儲(chǔ)系統(tǒng)(Fast Weight Programmers)的延伸(除了標(biāo)準(zhǔn)化部分)。
真的是這樣的嗎?
不得不說(shuō),Jürgen的某些思想非常超前,但其實(shí)上面的這些內(nèi)容都不是Jürgen第一次公開(kāi)說(shuō)明了。
一如既往,網(wǎng)友們的回應(yīng)褒貶不一。
追捧他的表示:
“這是Schmidhuber的世界,我們凡人只是居住在其中!”

“Schmidhuber is all you need.”

但更多的人都是在承認(rèn)他巨大貢獻(xiàn)的同時(shí),指出他過(guò)于美化自己的貢獻(xiàn),想把這二三十年所有相關(guān)的進(jìn)步都?xì)w功于他。

就像博文中提到的ResNets,許多人的觀點(diǎn)認(rèn)為它只是HighwayNets中一個(gè)非常微不足道的延伸;
而Transformer則是在發(fā)展壯大了三年之后才被Jürgen聯(lián)系到了Fast Weight Programmers身上;(如果真的那么相關(guān),怎么一開(kāi)始不指出來(lái))

上面提到的種種幾乎和他的團(tuán)隊(duì)成就沒(méi)啥關(guān)系,沒(méi)有他的那些論文,那些模型照樣會(huì)被提出來(lái)。
而他最重要的兩個(gè)貢獻(xiàn)是:用LSTM思想解決RNN訓(xùn)練難題以及梯度消失難題的理論分析。但這都還主要是他的學(xué)生Hochreiter領(lǐng)導(dǎo)的。

因此有人覺(jué)得Jürgen這種行為簡(jiǎn)直就像個(gè)孩子一直在說(shuō)“看我,我是最棒的”一樣:

甚有直言:“他的自負(fù)大于他的引用次數(shù)”。

你覺(jué)得呢?



























