灌水論文為何泛濫?Reddit小哥揭露機(jī)器學(xué)習(xí)領(lǐng)域殘酷現(xiàn)狀
這幾年,AI的趨勢(shì)只增不減,每年各大機(jī)器學(xué)習(xí)會(huì)議開(kāi)得那叫一個(gè)如火如荼,大家仿佛都對(duì)這個(gè)領(lǐng)域永遠(yuǎn)充滿了旺盛的探索欲。
不過(guò)最近,對(duì)于機(jī)器學(xué)習(xí)會(huì)議出版的各種論文出現(xiàn)了質(zhì)疑的聲音,并也獲得了不小的關(guān)注:
近日,Reddit上,一位出身于傳統(tǒng)工程領(lǐng)域的小哥發(fā)布了一則帖子,上面記錄了他對(duì)近期機(jī)器學(xué)習(xí)出版論文的觀察:
「 我注意到,有很多研究人員致力于諸如優(yōu)化、控制、信號(hào)處理等“老”領(lǐng)域的交叉領(lǐng)域,他們會(huì)突然發(fā)表大量的聲稱要解決某個(gè)問(wèn)題的論文。
而問(wèn)題本身通常是最近產(chǎn)生的,有時(shí)會(huì)涉及到一些深度神經(jīng)網(wǎng)絡(luò)。
然而,經(jīng)過(guò)仔細(xì)檢查,這些論文唯一的新奇之處,是這個(gè)問(wèn)題(通常是由其他不相關(guān)的團(tuán)體提出的),而不是研究人員提出的旨在解決這個(gè)問(wèn)題的方法。
我很困惑,為什么大量看似 「 很弱」的論文,居然可以被接受。

接著,這位小哥發(fā)現(xiàn)了這些論文能投中會(huì)議的秘訣:
1.只發(fā)機(jī)器學(xué)習(xí)會(huì)議
這些研究小組只會(huì)在機(jī)器學(xué)習(xí)會(huì)議上發(fā)表文章(而不會(huì)在優(yōu)化和控制會(huì)議/期刊上發(fā)表文章,而這些可能是他們工作的核心)。
例如,在一篇關(guān)于對(duì)抗機(jī)器學(xué)習(xí)的論文中,整篇論文實(shí)際上是關(guān)于解決一個(gè)優(yōu)化問(wèn)題的,但優(yōu)化的算法基本上只是在其他前人優(yōu)秀方法的基礎(chǔ)上稍微變化了一點(diǎn)而已。
此外,這位小哥還注意到,如果一篇論文沒(méi)有通過(guò)NeurIPS或ICLR,它們將被直接發(fā)送到AAAI和其他一些小型會(huì)議,在那里它們將被接受。
所以,在這個(gè)領(lǐng)域里,并沒(méi)有什么東西被浪費(fèi)掉。
2.審稿人們不知道發(fā)生了什么
通過(guò)openreview,國(guó)外小哥發(fā)現(xiàn)審稿人(不僅僅是研究人員)對(duì)他們的特定領(lǐng)域一無(wú)所知,而似乎只會(huì)評(píng)論論文的正確性,而不是新穎性。
事實(shí)上,他懷疑審稿人自己是否知道這種方法的新穎性。
在這里所說(shuō)的新穎性,是指某項(xiàng)技術(shù)的最新發(fā)展是多么新穎,尤其是當(dāng)它與運(yùn)籌學(xué)、優(yōu)化、控制和信號(hào)處理相交叉時(shí),而實(shí)際上,最先進(jìn)的技術(shù)可能遠(yuǎn)遠(yuǎn)超乎了主流機(jī)器學(xué)習(xí)研究者的認(rèn)知。
3.隨意引用
通常情況下,研究人員只會(huì)引用他們自己或過(guò)去幾年的“機(jī)器學(xué)習(xí)人”的文獻(xiàn)。
偶爾,會(huì)有一條引用來(lái)自于幾百年前的柯西、牛頓、傅里葉、古諾、圖靈、馮·諾伊曼等人,接著,又回向后跳躍幾百年到2018年或者2019年。
所以,他們可能想表達(dá):“這個(gè)問(wèn)題在1930年被一些「名人」研究過(guò),然后在2018年又被「某個(gè)家伙」研究過(guò)很多次。”
4.數(shù)學(xué)公式的堆砌
通常,會(huì)有大量的數(shù)學(xué)公式,來(lái)證明一些關(guān)于特征值、梯度、雅可比矩陣的深?yuàn)W條件,以及關(guān)于他們研究問(wèn)題的一些其他奇怪的事情(在其他深?yuàn)W的假設(shè)下)。
還會(huì)有幾個(gè)定理,但是沒(méi)有一個(gè)是適用的,因?yàn)樵谶\(yùn)行它們的高度非凸深度學(xué)習(xí)應(yīng)用時(shí),所有條件都被違反了。

因此,從這些復(fù)雜的定理+堆砌的數(shù)學(xué)公式中得到的唯一東西是「一些微弱的直覺(jué)」(然而馬上就會(huì)被違背),接著什么也沒(méi)說(shuō)。
5.“被拋棄的技術(shù)”
這位國(guó)外小哥發(fā)現(xiàn),某些技術(shù)在作者聲稱它擊敗了許多基準(zhǔn)測(cè)試之后,似乎將會(huì)被拋棄,并永遠(yuǎn)不會(huì)再使用。
機(jī)器學(xué)習(xí)研究人員似乎喜歡頻繁的跳過(guò)一些話題,所以這可能是其中一個(gè)愿意。
但是,通常情況下,在其他領(lǐng)域,一旦一項(xiàng)技術(shù)被提出,同一組研究人員就會(huì)用多年來(lái)改進(jìn)它,有時(shí)甚至貫徹了研究人員的整個(gè)職業(yè)生涯。
這位小哥表示:
「在某些方面,這使得某些機(jī)器學(xué)習(xí)區(qū)域就像一個(gè)回音室,在那里,研究人員正做著一些幾乎重復(fù)的事情,而這一點(diǎn)卻被問(wèn)題的新奇性所掩蓋了。
這些論文被接受,因?yàn)闆](méi)有人可以檢測(cè)論文本身真正的新穎性(或者,三個(gè)審稿人中只有一個(gè)會(huì)注意到)。
我只是覺(jué)得機(jī)器學(xué)習(xí)會(huì)議好像被當(dāng)成了「自動(dòng)收紙的搖錢樹(shù)」。
一石驚起千層浪,共鳴聲層出不窮:要么發(fā)表,要么滅亡?
這則帖子仿佛引起了大家的共鳴:
一個(gè)自稱是理論物理學(xué)家的網(wǎng)友回復(fù)道:
「這就是當(dāng)今理論物理學(xué)(和其他大多數(shù)『硬科學(xué)』學(xué)術(shù)研究的真實(shí)狀態(tài)。
“要么發(fā)表,要么滅亡”的心態(tài)根深蒂固。沒(méi)有人會(huì)在頭腦清醒的情況下嘗試解決實(shí)際困難和有意義的問(wèn)題。只需要在這里調(diào)整一個(gè)魔性的特征,在那里混合搭配一些方法,你的簡(jiǎn)歷里就會(huì)有一堆出版的論文了。
另外一個(gè)方面是,審查過(guò)程和所使用的方法缺少透明程度。比如一些半斤八兩的評(píng)論,讓學(xué)生替他們?cè)u(píng)論文章,以及一些政治原因等等。
用幾年的時(shí)間發(fā)表一篇可以實(shí)際解決科學(xué)問(wèn)題的論文的時(shí)代已經(jīng)一去不復(fù)返了。運(yùn)氣越來(lái)越成為一個(gè)幾乎比努力工作更重要的因素。
彼得·希格斯(因提出希格斯玻色子的存在和粒子獲得質(zhì)量的機(jī)制而獲得諾貝爾獎(jiǎng))多次說(shuō)過(guò),按照現(xiàn)在的標(biāo)準(zhǔn),他永遠(yuǎn)不會(huì)成功。
還有網(wǎng)友曾經(jīng)的研究方向是CNN,他表示:
「我曾經(jīng)的工作是有關(guān)CNN的應(yīng)用,然而,我們后來(lái)被告知說(shuō),需要添加一些數(shù)學(xué)公式,因?yàn)檫@有助于在會(huì)議上被接受。
但是,實(shí)際上,這些方程式根本沒(méi)有任何作用,既證明不了什么新東西,也沒(méi)有提供額外的見(jiàn)解,而僅僅只是基本描述了用矩陣表示的深度學(xué)習(xí)。
在我度過(guò)的其他論文中,我經(jīng)常看到非常復(fù)雜的數(shù)學(xué)公式,如果你花一個(gè)小時(shí)去理解它,最后的結(jié)果其實(shí)用一小行話就可以描述出來(lái)。這很可悲。
這導(dǎo)致我在剛開(kāi)始非常沮喪,認(rèn)為自己永遠(yuǎn)都不會(huì)擅長(zhǎng)數(shù)學(xué)。
的確,我可能的確不擅長(zhǎng),但是這些論文做的也并不是數(shù)學(xué)。

在數(shù)學(xué)公式的應(yīng)用上,一位研究氣候變化的工程博士也有共鳴:
「“堆砌的數(shù)學(xué)公式”是很普遍的一點(diǎn)。我們經(jīng)常被明確告知,需要用希臘字母寫(xiě)出各種難以理解的數(shù)學(xué)公式,因?yàn)檫@樣可以令論文看起來(lái)更好。
“要么發(fā)表,要么滅亡”是學(xué)術(shù)圈殘酷的毒瘤。」
還有網(wǎng)友吐槽了各種對(duì)已有模型的魔改論文:
「此外,略好一些的SOTA“之類的論文,除了一些參數(shù)調(diào)整或者向DNN添加額外的層之外,沒(méi)有提出任何新穎的方法或者方面,并且閱讀起來(lái)也非常累人,最后卻被會(huì)議接受了。
堆砌的數(shù)學(xué)公式的存在,只是為了提供一種嚴(yán)謹(jǐn)感和新奇感,并掩蓋了缺乏實(shí)際創(chuàng)新能力的本質(zhì)。
當(dāng)然,對(duì)已有方法進(jìn)行迭代是正常的,但是在機(jī)器學(xué)習(xí)領(lǐng)域下,很多論文都感覺(jué)好像是在并沒(méi)有完全理解所提出方法為何有效的情況下進(jìn)行了邊際的改進(jìn)。」
結(jié)語(yǔ)
的確,每年大量的機(jī)器學(xué)習(xí)會(huì)議,接受著大量的論文投稿,而這每年數(shù)萬(wàn)篇描述「學(xué)術(shù)進(jìn)展」的論文中,到底有多少真正的發(fā)現(xiàn)?

























