Andrej Karpathy 首次公開(kāi)私人郵件:揭秘Transformer 注意力機(jī)制真相
近年來(lái),Transformer 成為深度學(xué)習(xí)領(lǐng)域的絕對(duì)主角,而支撐其核心的“注意力”機(jī)制更是掀起了一場(chǎng)革命。但這項(xiàng)改變 AI 格局的技術(shù)究竟是如何誕生的?Andrej Karpathy 分享了與“注意力”機(jī)制最初開(kāi)發(fā)者 Dzmitry Bahdanau 的私人郵件,首次披露了這段被誤解和簡(jiǎn)化的歷史。這不僅是一段關(guān)于科學(xué)發(fā)現(xiàn)的個(gè)人回憶,更是一次回歸真相的旅程

郵件揭示了 Bahdanau 如何在 Yoshua Bengio 的實(shí)驗(yàn)室里,從實(shí)踐中找到靈感,最終提出了開(kāi)創(chuàng)性的“RNNSearch”,為后來(lái) Transformer 的成功鋪平了道路。本文將帶你回顧“注意力”的發(fā)展歷程,還原那些被時(shí)間和流言掩蓋的細(xì)節(jié),見(jiàn)證 AI 進(jìn)化的關(guān)鍵時(shí)刻,揭秘注意力的起源與其背后的故事
這是關(guān)于創(chuàng)新、合作與機(jī)緣巧合的真實(shí)故事,它不僅屬于學(xué)術(shù)界,也屬于推動(dòng)技術(shù)邊界的每一個(gè)人
注意力的誕生:從困惑到靈感
在人工智能的發(fā)展歷程中,“注意力”機(jī)制無(wú)疑是一個(gè)革命性的突破。雖然現(xiàn)在大多數(shù)人提到注意力,第一時(shí)間想到的可能是 2017 年的論文《Attention is All You Need》和 Transformer,但實(shí)際上,注意力的概念早在三年前就已經(jīng)出現(xiàn)了
故事開(kāi)始于 2014 年,當(dāng)時(shí) Dzmitry Bahdanau(簡(jiǎn)稱(chēng) Dima)作為實(shí)習(xí)生加入 Yoshua Bengio(加拿大計(jì)算機(jī)科學(xué)家,圖靈獎(jiǎng)得主) 的實(shí)驗(yàn)室。他參與了一個(gè)機(jī)器翻譯項(xiàng)目,主要任務(wù)是優(yōu)化序列到序列的神經(jīng)網(wǎng)絡(luò)模型。然而,Dima 一開(kāi)始對(duì)這項(xiàng)工作并不樂(lè)觀——“將一整段文本壓縮成一個(gè)向量,再進(jìn)行翻譯?這怎么可能有效?”
為了克服編碼器和解碼器之間的瓶頸,他開(kāi)始嘗試一些新思路。最初的設(shè)計(jì)靈感來(lái)自“兩個(gè)光標(biāo)”的概念,即通過(guò)動(dòng)態(tài)規(guī)劃,讓兩個(gè)光標(biāo)分別移動(dòng)在源序列和目標(biāo)序列中。然而,這種方法太復(fù)雜且實(shí)現(xiàn)困難。于是,他退而求其次,嘗試了一種“硬編碼的對(duì)角線(xiàn)注意力”,盡管結(jié)果尚可,但仍顯笨拙
真正的突破發(fā)生在他的一次靈感閃現(xiàn)中——為什么不讓解碼器自主學(xué)習(xí)關(guān)注源序列中的相關(guān)部分?這一想法源自 Dima 中學(xué)時(shí)的英語(yǔ)翻譯練習(xí):翻譯時(shí),眼睛會(huì)在源句和目標(biāo)句之間反復(fù)移動(dòng),他將這種軟搜索設(shè)計(jì)為 softmax 操作,結(jié)合雙向 RNN 的狀態(tài)進(jìn)行加權(quán)平均。結(jié)果,一試即成功!
這種機(jī)制被命名為“RNNSearch”,并迅速發(fā)表了論文《Neural Machine Translation by Jointly Learning to Align and Translate》
“Attention”的命名與后續(xù)發(fā)展
最初,RNNSearch 并不叫“注意力”,這個(gè)名字是 Yoshua Bengio 在論文的最后階段才加上去的。這個(gè)術(shù)語(yǔ)靈感來(lái)源于人類(lèi)的認(rèn)知過(guò)程:在翻譯時(shí),人們的注意力會(huì)在源語(yǔ)言和目標(biāo)語(yǔ)言之間來(lái)回切換
注意力的提出并非孤立存在,同期還有其他研究者在探索類(lèi)似機(jī)制。例如,Alex Graves 的“神經(jīng)圖靈機(jī)”和 Jason Weston 的“記憶網(wǎng)絡(luò)”都包含軟搜索或加權(quán)操作的概念。這些研究的出現(xiàn)并非偶然,而是當(dāng)時(shí)學(xué)術(shù)界對(duì)神經(jīng)網(wǎng)絡(luò)和符號(hào) AI 融合的一次集體努力
RNNSearch 的提出迅速引發(fā)了業(yè)界的關(guān)注,但當(dāng)時(shí)還沒(méi)有人預(yù)見(jiàn)到這個(gè)機(jī)制的潛力。直到 2017 年,Transformer 的橫空出世——一個(gè)幾乎完全依賴(lài)注意力機(jī)制的架構(gòu)。這篇論文不僅簡(jiǎn)化了模型設(shè)計(jì),還引入了位置編碼、多頭注意力等新概念,使得模型在結(jié)構(gòu)上更加簡(jiǎn)單統(tǒng)一,也為并行計(jì)算打開(kāi)了大門(mén)。自此,Transformer 成為深度學(xué)習(xí)領(lǐng)域的核心工具,直到今天,其設(shè)計(jì)仍基本未變
注意力的本質(zhì)與未來(lái)啟示
注意力機(jī)制的本質(zhì)是一種“數(shù)據(jù)依賴(lài)的加權(quán)平均”,是一種靈活、高效的全局池化操作。它的提出不僅是技術(shù)上的突破,也反映了人類(lèi)認(rèn)知的深刻影響。正如 Andrej Karpathy 所評(píng)價(jià)的:“注意力是一種重大解鎖,是神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的一次飛躍。”
如今,Transformer 及其變種已經(jīng)成為自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的核心技術(shù)。Dima 在回顧這一歷程時(shí)指出,注意力機(jī)制的誕生得益于多個(gè)因素的結(jié)合——個(gè)人創(chuàng)造力、團(tuán)隊(duì)協(xié)作,以及當(dāng)時(shí) GPU 性能的提升。這種多維度的推動(dòng),正是技術(shù)進(jìn)步的關(guān)鍵所在
寫(xiě)在最后:科學(xué)進(jìn)步的本質(zhì)
從 Bahdanau 的 RNNSearch,到 Transformer 的席卷全球,注意力的進(jìn)化史展現(xiàn)了科學(xué)探索的獨(dú)特魅力。它提醒我們,突破性的想法往往來(lái)自那些在實(shí)踐中尋求解決問(wèn)題的創(chuàng)新者,而非空想理論家。正如 Dima 所說(shuō):“一個(gè)好的研發(fā)項(xiàng)目,比我們常認(rèn)為的‘真正的 AI 研究’能為技術(shù)進(jìn)步做出更多貢獻(xiàn)。”
這,就是“注意力”的故事
附:Dzmitry Bahdanau 給 Andrej 的完整郵件內(nèi)容

Hi,Andrej:
很高興和你分享這段8年前的故事!
我在完成雅各布大學(xué)(Jacobs University)與Herbert Jaeger合作完成的碩士第一年后,作為實(shí)習(xí)生加入了Yoshua的實(shí)驗(yàn)室
我告訴Yoshua我愿意做任何工作。他安排我參與機(jī)器翻譯項(xiàng)目,與Kyunghyun Cho和團(tuán)隊(duì)一起工作。一開(kāi)始,我對(duì)將一串單詞壓縮成一個(gè)向量的想法非常懷疑。但我也非常渴望能拿到博士生的錄取,所以我卷起袖子,開(kāi)始做我擅長(zhǎng)的事——寫(xiě)代碼、修復(fù)錯(cuò)誤等。后來(lái),隨著我對(duì)項(xiàng)目理解的深入,Yoshua邀請(qǐng)我攻讀博士學(xué)位(在2014年,這已經(jīng)足夠了——那是好時(shí)候啊!)。我非常高興,覺(jué)得是時(shí)候放手去創(chuàng)新了
于是,我開(kāi)始思考如何避免編碼器和解碼器RNN之間的瓶頸問(wèn)題。我的第一個(gè)想法是設(shè)計(jì)一個(gè)有兩個(gè)“光標(biāo)”的模型,一個(gè)遍歷由BiRNN編碼的源序列,另一個(gè)遍歷目標(biāo)序列。這些光標(biāo)軌跡可以通過(guò)動(dòng)態(tài)規(guī)劃來(lái)邊緣化。Kyunghyun Cho認(rèn)為這類(lèi)似于Alex Graves的RNN轉(zhuǎn)錄器模型。隨后,我也可能讀了Graves的手寫(xiě)識(shí)別論文。然而,這種方法看起來(lái)并不適合機(jī)器翻譯
這個(gè)“光標(biāo)”方法在實(shí)習(xí)剩下的5周內(nèi)太難實(shí)現(xiàn)。所以我嘗試了更簡(jiǎn)單的方法——兩個(gè)光標(biāo)同時(shí)同步移動(dòng)(本質(zhì)上是硬編碼的對(duì)角注意力)。這種方法有些效果,但缺乏優(yōu)雅
有一天,我突然想到,如果讓解碼器RNN學(xué)會(huì)在源序列中搜索光標(biāo)位置會(huì)如何?這個(gè)想法部分受到我中學(xué)學(xué)英語(yǔ)翻譯練習(xí)的啟發(fā)。翻譯時(shí),視線(xiàn)會(huì)在源序列和目標(biāo)序列之間來(lái)回切換。我用softmax表達(dá)了這種軟搜索,并通過(guò)加權(quán)平均BiRNN狀態(tài)實(shí)現(xiàn)。這種方法第一次試驗(yàn)就效果很好,讓我非常興奮。我把這種架構(gòu)稱(chēng)為RNNSearch,我們趕緊發(fā)布了ArXiV論文,因?yàn)槲覀冎繧lya和Google團(tuán)隊(duì)在用8個(gè)GPU訓(xùn)練他們的LSTM模型(RNN Search仍然只用1個(gè)GPU)
后來(lái)發(fā)現(xiàn),這個(gè)名字不夠好。最終,Yoshua在論文最后一輪修改時(shí)將“attention”加到了結(jié)論部分
1.5個(gè)月后,我們看到了Alex Graves的NMT論文。確實(shí)是完全相同的想法,但他是從完全不同的動(dòng)機(jī)出發(fā)的。在我們的情況下,發(fā)明是需求的產(chǎn)物。而對(duì)他來(lái)說(shuō),可能是為了彌合神經(jīng)與符號(hào)AI之間的差距?Jason Weston團(tuán)隊(duì)的Memory Networks論文也采用了類(lèi)似的機(jī)制
我當(dāng)時(shí)沒(méi)有預(yù)見(jiàn)到attention可以用于更低級(jí)別,作為表示學(xué)習(xí)的核心操作。但當(dāng)我看到Transformer論文時(shí),我立即對(duì)實(shí)驗(yàn)室同事說(shuō):“RNN完蛋了。”
回到你的問(wèn)題:在蒙特利爾Yoshua實(shí)驗(yàn)室中“可微分和數(shù)據(jù)驅(qū)動(dòng)的加權(quán)平均”的發(fā)明是獨(dú)立于Neural Turing Machines、Memory Networks以及一些來(lái)自90年代甚至70年代的相關(guān)認(rèn)知科學(xué)論文的(我可以提供任何鏈接)。它是Yoshua鼓勵(lì)實(shí)驗(yàn)室追求雄心壯志、Kyunghyun Cho成功領(lǐng)導(dǎo)機(jī)器翻譯項(xiàng)目、以及我多年來(lái)通過(guò)競(jìng)賽編程磨練的創(chuàng)造力和編碼能力共同促成的。我并不認(rèn)為這個(gè)想法會(huì)等待太久才被發(fā)現(xiàn)。即使沒(méi)有我、Alex Graves和故事中的其他人,attention也是深度學(xué)習(xí)中實(shí)現(xiàn)靈活空間連接的自然方法。它是顯而易見(jiàn)的,只等著GPU足夠快,使人們有動(dòng)力認(rèn)真對(duì)待深度學(xué)習(xí)研究。一旦我意識(shí)到這一點(diǎn),我的AI宏愿便是啟動(dòng)更多像機(jī)器翻譯項(xiàng)目那樣的驚人應(yīng)用項(xiàng)目。優(yōu)秀的研發(fā)工作對(duì)基礎(chǔ)技術(shù)的進(jìn)步貢獻(xiàn)遠(yuǎn)勝過(guò)那些我們常認(rèn)為是“真正”AI研究的復(fù)雜理論
就這些!很想聽(tīng)聽(tīng)更多關(guān)于你教育AI項(xiàng)目的消息(聽(tīng)Harm de Vries提起過(guò)一些傳聞;))。
祝好, Dima




































