遭Llama 2詆毀,LSTM之父暴怒!Meta盜用32年前idea訓(xùn)模型,喊話讓LeCun負(fù)責(zé)
LSTM之父暴脾氣又來(lái)了!
這...究竟是怎么回事?
今天,Jürgen Schmidhuber在社交媒體上表示,Meta用了自己在1991年的想法訓(xùn)練Llama 2。
用了我的idea不說(shuō),Llama 2還暗示我參與了有害活動(dòng),并且沒(méi)有對(duì)社會(huì)做出積極貢獻(xiàn)。
甚至,老爺子直接在線點(diǎn)名,讓Meta和Llama負(fù)責(zé)人LeCun出面解決此事。
圖片
附上的配圖中,一位加州大學(xué)戴維斯分校的博士在與Llama 2對(duì)話中,發(fā)現(xiàn)對(duì)Schmidhuber介紹非常地冒犯。
底下還有網(wǎng)友煽風(fēng)點(diǎn)火,這看起來(lái)像是Yann LeCun自己加進(jìn)去的答案。
圖片
一向就愛(ài)熱鬧的馬庫(kù)斯也被炸出來(lái)了:「可以說(shuō)是LLM誹謗的最典型案例了。Schmidhuber有權(quán)惱羞成怒。」
同時(shí),這也是一個(gè)非常好的法律問(wèn)題,Meta要為此負(fù)責(zé)嗎?現(xiàn)有的法律可能會(huì),可能不會(huì)覆蓋了類(lèi)似的事情。
圖片
LSTM之父亮出多重證據(jù)
為了證明Llama 2的訓(xùn)練確實(shí)用到了自己的想法。
Schmidhuber直接亮出了自己在1992年發(fā)表的論文,并稱NECO是當(dāng)前Transformer的變體。
圖片
還有,早在2017年,Meta就使用了Schmidhuber團(tuán)隊(duì)另一種深度學(xué)習(xí)算法LSTM,每天處理多達(dá)45億條翻譯。
圖片
還有一堆鏈接,全是能夠證明Schmidhuber與LeCun研究創(chuàng)意,還有圖靈獎(jiǎng)優(yōu)先權(quán)之爭(zhēng)。
圖片
不可否認(rèn),老爺子在人工智能領(lǐng)域的貢獻(xiàn)著實(shí)有著深遠(yuǎn)的意義。
早在2018年,圖靈獎(jiǎng)?lì)C發(fā)給三巨頭之后,網(wǎng)友紛紛為打抱不平,稱他是一個(gè)被圖靈獎(jiǎng)遺忘的大神。
圖片
除了大名鼎鼎的LSTM之外,Schmidhuber「引以為傲」的還有,他在1992年提出的一種PM(Predictability Minimization)模型。
前幾年大火的GAN也是PM的變種,兩者的區(qū)別就在于方向是反的。
圖片
對(duì)此,Schmidhuber還曾與GAN之父Ian Goodfellow還有過(guò)線下的激烈交鋒。
至于對(duì)深度學(xué)習(xí)三巨頭,老爺子也是與他們打過(guò)幾輪口水戰(zhàn),認(rèn)為HLB三人在自己的圈子里玩,對(duì)深度學(xué)習(xí)領(lǐng)域其他更早期先驅(qū)人物的貢獻(xiàn)則只字不提。
圖片
而到近來(lái),LeCun也還是與Schmidhuber在公開(kāi)平臺(tái)上不斷針?shù)h相對(duì)。
就比如去年7月,他表示,LeCun發(fā)表的論文Autonomous Machine Intelligence中重提了自己1990-2015年的重要工作,但沒(méi)有引用。
圖片
去年11月,Schmidhuber稱,LeCun的「2012-22五大最佳創(chuàng)意」大多來(lái)自他的實(shí)驗(yàn)室,而且時(shí)間更早:
1. 1991年的自監(jiān)督RNN堆棧;
2. ResNet = open-gated 2015 Highway Net;
3&4. 1991年的基于鍵/值的快速權(quán)重;
5. 1991年的線性化自注意Transformers(也是GAN 1990)
圖片
可見(jiàn),Schmidhuber和LeCun恩怨還是很深的,也不難理解,這次直接找LeCun負(fù)責(zé)。
但問(wèn)題是,真是Llama 2故意詆毀的嗎?
Llama 2 Chat:逃避可恥但有用
顯然,剛剛的這波輸出,并不是來(lái)自「原版」的Llama 2模型。
有網(wǎng)友指出,像Perplexity這樣的公司,很可能會(huì)給模型套一層「道德微調(diào)」。
或者,是因?yàn)镸eta在Chat版本上用了太多的RLHF,結(jié)果讓模型失去了思維能力,變得毫無(wú)用處……
相比之下,如果采用Llama 2 13B的原始量化權(quán)重,并且在本地設(shè)備上運(yùn)行的話,實(shí)際效果還是不錯(cuò)的。
模型在大加贊賞之余,雖然會(huì)產(chǎn)生Jürgen Schmidhuber已經(jīng)贏得圖靈獎(jiǎng)的幻覺(jué),但網(wǎng)友表示,這其實(shí)是老爺子應(yīng)得的。
圖片
圖片
為了證實(shí)自己的發(fā)現(xiàn),這位網(wǎng)友又對(duì)比了Replicate API和Llama 2 13B的結(jié)果。
果然,同樣的情況出現(xiàn)了。
圖片
圖片
對(duì)此,Hugging Face的機(jī)器學(xué)習(xí)科學(xué)家Nathan Lambert在一篇博文中表示,Llama 2 Chat的安全過(guò)濾器表現(xiàn)得有些過(guò)于敏感了。
即便是一些無(wú)害的問(wèn)題,比如「如何制作辣椒醬」或者「如何終止一個(gè)進(jìn)程」,模型都會(huì)非常極端地回應(yīng)——抱歉,我無(wú)法執(zhí)行。
圖片
對(duì)于這種情況,目前的主流理論是——模型用RLHF「錘」的時(shí)間太長(zhǎng)了……
眾所周知,在進(jìn)行RLHF時(shí),訓(xùn)練過(guò)程中所使用的主要性能評(píng)估指標(biāo)是偏好模型獎(jiǎng)勵(lì)的單調(diào)遞增。
而這也帶來(lái)了兩個(gè)直接的問(wèn)題:a)使用的獎(jiǎng)勵(lì)模型不完整,b)錯(cuò)過(guò)了對(duì)中間訓(xùn)練技術(shù)進(jìn)行有用評(píng)估的方法。
只要訓(xùn)練的獎(jiǎng)勵(lì)模型能夠在驗(yàn)證集上達(dá)到65-75%的準(zhǔn)確率(因?yàn)橛?xùn)練數(shù)據(jù)是人類(lèi)偏好的聚合,很難建模),那么就會(huì)出現(xiàn)過(guò)度RLHF的情況。
當(dāng)一個(gè)模型根據(jù)獎(jiǎng)勵(lì)模型進(jìn)行了過(guò)多的優(yōu)化步驟時(shí),它就會(huì)過(guò)度關(guān)注這個(gè)模型對(duì)行為的喜好。
然而對(duì)于這個(gè)問(wèn)題,目前暫時(shí)還沒(méi)有一個(gè)直接而徹底的解決方案。
Meta的研究結(jié)果表明,聊天模型在評(píng)估中存在兩個(gè)潛在的致命缺陷:
1. 針對(duì)「邊界問(wèn)題」,模型的拒絕回答率高達(dá)27%
這與Anthropic公司的研究成果密切相關(guān),他們建議首先開(kāi)發(fā)一個(gè)有用的語(yǔ)言模型,然后再開(kāi)發(fā)一個(gè)無(wú)害的語(yǔ)言模型,因?yàn)橥瑫r(shí)進(jìn)行這兩者會(huì)導(dǎo)致回避行為。
不過(guò),Meta能夠在論文中提及這一點(diǎn),至少意味著他們已經(jīng)在著手解決了。
圖片
2. 獎(jiǎng)勵(lì)模型存在分歧較大的區(qū)域
也就是,在高有益性和低安全性評(píng)分之間該如何處理,反之亦然
顯然,他們用到的這個(gè)集成方法,還有很大的改進(jìn)空間。
圖片
網(wǎng)友熱議
有人問(wèn)到,誰(shuí)能確認(rèn)Schmidhuber提出了類(lèi)似Transformer的東西嗎?
圖片
一位網(wǎng)友給出了詳細(xì)的解釋?zhuān)?/p>
Schmidhuber在90年代寫(xiě)了各種關(guān)于「Fast Weight Programmers」的論文。 他表示,「FWP這種方法通過(guò)自發(fā)明的激活模式的外加產(chǎn)物,實(shí)現(xiàn)了快速的權(quán)重變化。這種激活模式類(lèi)似于今天Transformer中使用的自注意力機(jī)制。」 然而,有趣的是,你會(huì)注意到Schmidhuber總是能夠?qū)⑷藗兡壳暗墓ぷ鳎c他在20-30年前所做的研究聯(lián)系起來(lái),但卻從未能夠獨(dú)自推進(jìn)這項(xiàng)研究。 如果他的研究是如此明顯的好點(diǎn)子,他就會(huì)自己努力將其應(yīng)用于現(xiàn)代。因?yàn)樽阅菚r(shí)以來(lái),計(jì)算能力的大幅提升使其變得可行,而不是讓它完全被重新發(fā)現(xiàn)。但實(shí)際上,他的專(zhuān)業(yè)知識(shí)僅限于理論邊界,他從未為實(shí)現(xiàn)現(xiàn)代系統(tǒng)所增加的架構(gòu)和工程復(fù)雜性而奮斗。 他所發(fā)表的荒謬言論,以恰到好處地在史書(shū)上留下自己的功勞。比如說(shuō)現(xiàn)代方法論是他的,即便這是從他最初的架構(gòu)中衍生出來(lái)的,并進(jìn)一步暗示一些荒謬的事情,比如說(shuō)Meta為了報(bào)復(fù)他而親自編寫(xiě)了這種答案。要知道這對(duì)他并沒(méi)有幫助。
圖片
還有人認(rèn)為,RLHF對(duì)AI來(lái)說(shuō),是最糟糕的事情。
圖片
還是Claude懂你。
圖片
參考資料:
https://twitter.com/doodlestein/status/1683957105844277248
https://www.interconnects.ai/p/llama-2-part-2



































