精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性?? 原創(chuàng)

發(fā)布于 2025-6-18 08:21
瀏覽
0收藏

本文旨在全面介紹開源框架Titans。Titans是一種為LLM配備受人類啟發(fā)的記憶的新架構(gòu),它能夠在測試期間進行自我學(xué)習(xí)和更新。

本文要討論什么內(nèi)容?

Meta公司努力開發(fā)出的CoCoMix(Continuous Concept Mixing:連續(xù)概念混合,出自??Jihoon等人2025年發(fā)表的論文??,見【引文1】)框架實現(xiàn)了概念學(xué)習(xí),即學(xué)習(xí)單詞背后的概念而不是僅僅預(yù)測下一個標(biāo)記,從而使其具有極強的可操控性和可解釋性。?

但是,依然存在一個核心問題:即使是概念上非常出色的模型,在訓(xùn)練之后的實際部署中,也可能難以應(yīng)對細(xì)微差別或事實性的回憶挑戰(zhàn)。你可以問一個看似簡單的問題,比如:“在我們之前那場涉及200萬個標(biāo)記的對話中,我們在哪里討論過匹諾曹那出了名的不斷增長的鼻子?”無論LLM的概念能力多么強,如果答案超出了它的上下文范圍,它就無法回答這個簡單的問題。

那么問題來了:我們能否在推理過程中為這些智能LLM配備適應(yīng)性強的“記憶”或性能提升呢?

1. 基礎(chǔ)問題:Transformer

Transformer(出自??Vaswani等人2017年發(fā)表的論文??,見【引文2】)在現(xiàn)代人工智能領(lǐng)域已變得無處不在。自其取得突破性成功以來,它已成為各領(lǐng)域的首選架構(gòu)。?

回想2020年,人們對任何機器學(xué)習(xí)問題的默認(rèn)反應(yīng)往往是“把注意力集中到它上面”——令人驚訝的是,它確實有效,而且通常表現(xiàn)優(yōu)于最先進的模型。視覺任務(wù)?請使用Transformer(??Dosovitskiy等人2020年發(fā)表的論文???,見【引文3】)。時間序列預(yù)測?又是Transformer(??Zerveas等人于2021年發(fā)表的論文???,見【引文4】)。自然語言處理?Transformer幾乎定義了它(??Rogers等人于2021年發(fā)表的論文??,見【引文5】)。?

但是,隨著我們對大型模型的依賴加深以及計算預(yù)算的擴大,即使是這種“全能”架構(gòu)也開始顯示出其局限性——因此,人們開始努力進一步擴展其功能。

存在瓶頸?可以求助于注意力機制的“人人對話”方法。這種方法非常巧妙,但成本卻極其高昂——想象一下,一個房間里有一百萬人,每個人都必須記住與所有人的每一次對話。這限制了Transformer的“工作記憶”——使其記憶變得狹窄,難以進行理解海量文檔所需的“長期回憶”,因為早期信息會逐漸消失。

除了上下文限制之外,普通的Transformer還面臨另一個根本障礙:訓(xùn)練后缺乏適應(yīng)性。雖然它們擅長運用海量預(yù)訓(xùn)練知識來預(yù)測下一個標(biāo)記(這是一個復(fù)雜的推理和預(yù)測過程),但這與真正的學(xué)習(xí)并不相同。就像谷歌地圖一樣,雖然它會為你找到“最短路徑”,但它會忘記前方有施工路段,讓你沖破路障。而人類向?qū)t會為你指引一條替代的小巷路線。

這種無法從當(dāng)前正在處理的數(shù)據(jù)中“即時學(xué)習(xí)”的能力,對于需要不斷適應(yīng)或記憶訓(xùn)練集之外的新經(jīng)驗的任務(wù)來說,是一個嚴(yán)重的限制。

下面這張圖解釋了傳統(tǒng)Transformer注意力機制的局限性。其中,頂部展示了一個小型且有限的“注意力窗口”,其中包含t1-t6個標(biāo)記,表明像t203這樣的舊標(biāo)記已被“遺忘”。底部則展示了18個標(biāo)記的全對全注意力機制,突出顯示了其“O(n2)”的二次成本、計算消耗和資源密集度,并得出結(jié)論:它“無法擴展到百萬級以上的上下文窗口”。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

當(dāng)前原始Transformer的眾多問題中的兩個(作者本人繪制)

解決方案?Titans框架!

研究人員沒有僅僅針對單一限制,而是從更廣闊的視角出發(fā):像人腦這樣的智能系統(tǒng)如何管理記憶并適應(yīng)新情況?這并非關(guān)乎擁有一個龐大且隨時可用的記憶體。它其實是一個更靈活的設(shè)置,其中不同的組件相互協(xié)調(diào),以處理不同類型的信息和經(jīng)驗。

Meta公司研究人員新研發(fā)成功的Titans架構(gòu)(出自??Behrouz等人于2025年發(fā)表的論文??,見【引文6】))就包含了這一點,它不是圍繞單一的整體注意力模塊構(gòu)建的,而是圍繞一個專門的記憶系統(tǒng)合作團隊構(gòu)建的,每個系統(tǒng)在理解和響應(yīng)手頭的任務(wù)方面都發(fā)揮著至關(guān)重要的作用。?

(1)架構(gòu)組件:內(nèi)存模塊

  • 短期記憶(STM):這是一種敏銳、注重細(xì)節(jié)的“專家”。它的功能類似于你所知的注意力,但它不會被過去的一切(現(xiàn)在是LMM的工作)所淹沒,而是專注于當(dāng)下。這就像你記住了對方剛剛對你說的話,時間剛好夠你回應(yīng)。?
  • 長期記憶模塊(LMM):這是最令人興奮的新增功能。它旨在在推理過程中學(xué)習(xí)和適應(yīng)——沒錯,就是在推理過程中,而且是即時方式!我所說的“適應(yīng)”字面意思是它的參數(shù)會發(fā)生變化!想象一下,你多年來一直在理解一位朋友——不斷積累經(jīng)驗,同時過濾掉不重要的事件。?
  • 持久記憶(PM):此模塊保存著基礎(chǔ)的、特定于任務(wù)的知識。這些是模型在主要訓(xùn)練過程中獲得的可學(xué)習(xí)的基本見解。這些知識并非即時動態(tài)的,但為其他兩個模塊提供了必要的基礎(chǔ)和背景。它就像你的個性、你的舉止、走路或開車的能力,這些你不需要重新學(xué)習(xí)或改變。

三種記憶模塊:短期記憶(STM)、長期記憶模塊(LMM)和持久記憶(PM)

這張圖展示了三種記憶模塊:短期記憶,表現(xiàn)為一個在“STM/Attention”筆記本電腦前感到壓力的人物,專注于當(dāng)前情境;長期記憶,表現(xiàn)為一個在“LTM weights”筆記本電腦前面帶微笑的人物,用羽毛筆更新自身,記錄歷史情境;持久記憶,表現(xiàn)為一個平靜的人物,手持石碑,石碑上寫著“預(yù)設(shè)相同權(quán)重”,體現(xiàn)了固定的、與數(shù)據(jù)無關(guān)的任務(wù)知識(作者本人繪制此圖)。

(2)這些內(nèi)存模塊是如何實現(xiàn)的?

那么,這三者究竟是如何協(xié)同工作的呢?首先,STM本質(zhì)上是標(biāo)準(zhǔn)的自注意力計算,它是原生Transformer的核心。它的“記憶”是訓(xùn)練過程中學(xué)習(xí)到的鍵值緩存和注意力矩陣。

另一方面,PM是一組可學(xué)習(xí)的參數(shù),它們被添加到輸入序列的前面,并在訓(xùn)練過程中學(xué)習(xí),并充當(dāng)模型在推理過程中無論如何都要遵循的“圣杯”。

到目前為止還算容易理解,嗯?接下來,讓我們深入探討其中的創(chuàng)新之處和真正令人興奮的部分。雖然它是作為一個簡單的MLP網(wǎng)絡(luò)實現(xiàn)的,但它可以在測試時進行調(diào)整——LMM模塊:

(3)Titans框架核心:自適應(yīng)長期記憶(LMM)模塊

等一下……測試時更新參數(shù)?這難道不是只在訓(xùn)練時才會做的事嗎?這難道不是作弊嗎?

當(dāng)你聽到“測試時訓(xùn)練”這個詞時,你是否想到了這些問題?這些問題確實存在,但這并不意味著作弊。Titans利用在線學(xué)習(xí)和元學(xué)習(xí)的原理,實現(xiàn)快速、局部的更新,這些更新專門針對記憶,而非一般的任務(wù)改進。它在測試時不會查看外部標(biāo)簽來計算梯度和優(yōu)化參數(shù);相反,一切都保持獨立:模型僅使用已知信息和當(dāng)前感知信息進行內(nèi)部調(diào)整。

在人類記憶中,常規(guī)和可預(yù)測的事件往往會逐漸消失,而意外或令人驚訝的時刻往往會持續(xù)存在(來自??Mandler于2014年發(fā)表的論文??,見【引文7】)。這是實現(xiàn)動態(tài)測試時間更新背后的核心思想。?

LMM如何學(xué)習(xí):關(guān)聯(lián)損失函數(shù)

LMM充當(dāng)聯(lián)想記憶:它學(xué)習(xí)將“鍵”(線索)與“值”(信息)聯(lián)系起來。對于每條新數(shù)據(jù)xt(MAG和MAL中的輸入塊,MAC中的STM(自注意力機制)輸出):

  • 鍵值提?。合到y(tǒng)首先使用可學(xué)習(xí)的變換(Wk和Wv)將xt轉(zhuǎn)換為特定鍵(kt)和關(guān)聯(lián)值(vt)。

使用線性層將xt映射到kt和vt(作者本人繪制)

  • 測試LMM:在當(dāng)前狀態(tài)下,對LMM進行“詢問”:給定這個新密鑰kt,你會預(yù)測什么值?我們將其預(yù)測稱為pt。

Mt-1:當(dāng)前LMM狀態(tài);kt:當(dāng)前塊的密鑰(作者本人繪制)

  • 計算損失:通過LMM預(yù)測的錯誤程度來衡量:

預(yù)測輸出與“基本事實”之間的標(biāo)準(zhǔn)MSE損失(作者本人繪制)

梯度和“意外”信號

為了讓LMM從這種損失中學(xué)習(xí),我們加入了“驚喜信號”,它能夠衡量模型在看到基本事實(vt)時的“驚訝”程度。這個“驚喜”在數(shù)學(xué)上定義為損失函數(shù)相對于LMM參數(shù)的梯度。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

“意外”的測量,即模型與預(yù)測“正確的”vt的距離(作者本人繪制)

考慮到LMM的當(dāng)前知識,較大的梯度意味著xt是非?!傲钊梭@訝”或出乎意料的。

基本學(xué)習(xí)步驟:

LMM學(xué)習(xí)的最簡單方法是稍微調(diào)整其參數(shù)以減少這種意外(即減少損失),就像梯度下降中的一步一樣:

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

Mt:更新后的LMM參數(shù);Mt-1:之前的LMM參數(shù);lr:學(xué)習(xí)率(作者本人繪制)

細(xì)化驚喜:利用動量和遺忘實現(xiàn)更智能的學(xué)習(xí)

僅僅對眼前的“驚喜”做出反應(yīng)是不夠的。良好的記憶力不僅需要洞察趨勢,還必須知道何時放棄舊的、不相關(guān)的信息。

智能學(xué)習(xí)方向(ΔΘMt):首先,LMM計算出調(diào)整其參數(shù)的最佳方向。這不僅基于當(dāng)前的意外,還基于對近期意外的“記憶”。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

參數(shù)變化是根據(jù)之前的變化和當(dāng)前的意外情況計算得出的(作者本人繪制)

  • ΔΘMt:LMM參數(shù)的建議變更。?
  • ηt*ΔΘMt-1:這是動量 ——它延續(xù)了上一步的學(xué)習(xí)趨勢。ηt(數(shù)據(jù)相關(guān))決定了過去動量的持續(xù)時間。?
  • θt*?Loss_current_surprise:這是當(dāng)前意外的影響。θt(數(shù)據(jù)相關(guān))衡量其影響力。最終參數(shù)更新(ΘMt:然后,LMM更新其實際參數(shù),將舊知識與新的學(xué)習(xí)方向相結(jié)合,并且至關(guān)重要的是,允許“遺忘”。

最終更新包括更新多少以及保留多少(作者本人繪制)

  • ΘMt:從xt學(xué)習(xí)后的LMM的新參數(shù)。?
  • (1—at)*ΘMt-1:這是保留了多少舊LMM狀態(tài)。at(依賴于數(shù)據(jù),介于0和1之間)是遺忘因子 -如果at很高,則會遺忘更多的舊狀態(tài)。?
  • ΔΘMt:上面計算的智能學(xué)習(xí)方向。?

下圖展示了LTM模塊的更新過程。分塊輸入序列(例如STM輸出)被投影到鍵向量和值向量中。鍵向量在LTM模塊中進行前向傳遞,并與值向量一起計算損失。該損失的梯度(通過不帶更新的后向傳遞)通過加權(quán)和與動量緩沖區(qū)中存儲的先前更新相結(jié)合。組合后的更新經(jīng)過“遺忘”門,該門確定LTM的新權(quán)重。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

整個LMM更新過程的可視化(作者本人繪制)

簡而言之:

LMM會查看當(dāng)前數(shù)據(jù)的“意外情況”(?Loss_current_surprise),將其與近期的學(xué)習(xí)趨勢(momentumΔΘMt-1)相融合,然后更新其內(nèi)部知識(ΘMt),并決定在此過程中保留或丟棄多少舊信息(at)。數(shù)據(jù)依賴門控(ηt,θt,at)使其能夠動態(tài)自適應(yīng)。

(4)Titans的架構(gòu)藍(lán)圖:記憶在行動

谷歌研究人員探索了這三個內(nèi)存模塊的三種主要排列方式:

記憶作為情境(MAC)

在這種設(shè)置中,Titans為STM(標(biāo)準(zhǔn)自注意力塊)創(chuàng)建了一個增強且更豐富的環(huán)境。

  • 非常長的輸入序列被分成多個段或塊。?
  • 在處理時,模型將塊映射到查詢,并使用它來從LMM中檢索相關(guān)的歷史上下文(查詢經(jīng)過LMM,其輸出是歷史上下文)。?
  • 然后將這些檢索到的歷史標(biāo)記與靜態(tài)持久內(nèi)存標(biāo)記和當(dāng)前段標(biāo)記連接起來。?
  • 整個擴展序列(持久+歷史+當(dāng)前)被輸入到STM(注意力)層,該層處理這個大型組合上下文中的關(guān)系。?
  • 注意力層的輸出反映了對當(dāng)前數(shù)據(jù)考慮到歷史和任務(wù)知識的深刻理解,然后將其用作LMM動態(tài)參數(shù)更新過程的輸入數(shù)據(jù)。?
  • 使用相同的注意力結(jié)果再次查詢更新后的LMM,然后通過門控總和或部分連接將其響應(yīng)與原始注意力相結(jié)合以產(chǎn)生最終結(jié)果。?

類比:文本(序列)以頁面(塊)的形式呈現(xiàn)。對于每一頁,不斷學(xué)習(xí)的筆記記錄者(LMM)會快速從過去的筆記中找到相關(guān)的摘要,并將其與重要的“規(guī)則手冊”筆記(PM)進行混合。學(xué)生(STM/注意力)會閱讀整篇文章——規(guī)則手冊、相關(guān)的過去摘要以及當(dāng)前頁面——并根據(jù)從豐富的上下文中學(xué)習(xí)到的知識,準(zhǔn)確地告訴筆記記錄者當(dāng)前頁面上哪些要點對于將來的總結(jié)至關(guān)重要。

最終答案的形成是基于學(xué)生的詳細(xì)閱讀和筆記記錄者更新后的記憶視角的綜合考慮。

下圖展示的是記憶即語境(MAC)架構(gòu)圖。分塊輸入向LMM查詢歷史語境。結(jié)合持久記憶,這為注意力模塊(STM)構(gòu)建了一個“更豐富的語境”。注意力模塊的輸出更新LMM,并與更新后的LMM輸出相結(jié)合,形成最終結(jié)果。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAC架構(gòu)可視化(作者本人繪制)

記憶之門(MAG)

該設(shè)計以不同的方式并行集成存儲器,通過動態(tài)門混合來自STM和LMM輸出的信息。

  • 輸入序列(持久序列+當(dāng)前序列)被輸入到兩條路徑:?一條路徑通往STM,此處使用滑動窗口注意力機制實現(xiàn),使其能夠聚焦于每個符號周圍的局部鄰域。
    另一條并行路徑通往LMM網(wǎng)絡(luò)。?
  • LMM的輸入用于動態(tài)更新其參數(shù),并生成相應(yīng)的輸出表示。?
  • 然后,STM(滑動窗口注意力機制)的輸出和LMM前向傳遞的輸出會通過一個門控機制。該門控機制會學(xué)習(xí)在局部注意力機制的信息和LMM的狀態(tài)/輸出所代表的信息之間進行混合或選擇。?
  • 該門控機制的輸出是該令牌位置的最終輸出。?

打個比方:每收到一頁紙,兩個任務(wù)就會同時進行:學(xué)生(STM)專注于眼前的那一頁,而獨立的筆記記錄者(LMM)則通讀當(dāng)前頁面,并將其與目前為止所見的內(nèi)容聯(lián)系起來,默默地更新其整體理解。學(xué)生根據(jù)段落給出答案,而筆記記錄者則根據(jù)其不斷發(fā)展的宏觀框架提出想法。

協(xié)調(diào)者(門控機制)只需將兩個輸出融合或從中挑選,即可得出最終答案。

以下給出內(nèi)存即門控(MAG)架構(gòu)示意圖。分塊輸入序列與持久內(nèi)存令牌組合。該增強序列同時查詢LMM模塊(也用于更新)和注意力模塊(STM)。然后,LMM分支和STM分支的輸出通過門控和進行組合,以生成最終輸出。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAG架構(gòu)可視化(作者本人繪制)

記憶層(MAL)

在這個變體中,LMM網(wǎng)絡(luò)被用作初始處理層,在序列到達注意力機制(STM)之前對其進行修改。

  • 輸入序列(仍然使用“持久+當(dāng)前”方式)首先作為不同的層通過LMM網(wǎng)絡(luò)。?
  • 當(dāng)LMM網(wǎng)絡(luò)逐塊處理序列時,其參數(shù)會動態(tài)更新。它還會生成一個變換后的輸出序列。?
  • 然后,將LMM層的轉(zhuǎn)換輸出序列用作后續(xù)STM(注意力)層(滑動窗口或窗口內(nèi)完全注意力)的輸入。?
  • Attention層的輸出是該序列的模型的最終輸出。?

打個比方:首先,每一頁新內(nèi)容都會直接發(fā)送給主筆記員(LMM),LMM會處理所有內(nèi)容,并不斷總結(jié)和更新其總結(jié)風(fēng)格。之后,這份(可能細(xì)節(jié)較少的)總結(jié)會被交給學(xué)生(STM)。學(xué)生只會看到并關(guān)注總結(jié)文本的局部內(nèi)容,他們的答案完全基于主筆記員提供的內(nèi)容。

下圖展示的是記憶即層(MAL)架構(gòu)圖。一個以持久記憶標(biāo)記開頭的分塊輸入序列被送入LMM模塊進行查詢和更新。LMM的輸出隨后作為注意力模塊(STM)的輸入(查詢),STM產(chǎn)生最終輸出。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAL架構(gòu)可視化(作者本人繪制)

3. 我們從中獲得了什么?結(jié)果和發(fā)現(xiàn)

那么,現(xiàn)在我們對Transformer之后的下一個革命性技術(shù)已經(jīng)了如指掌,但它真的會那么偉大嗎?谷歌的研究人員真的破解了能夠記憶、適應(yīng)并克服此前被認(rèn)為不可能的挑戰(zhàn)的模型密碼嗎?讓我們逐一回顧一下這些新發(fā)現(xiàn):

語言能力:不僅僅是文字

Titans框架的功能遠(yuǎn)不止于更準(zhǔn)確地預(yù)測下一個單詞。得益于其動態(tài)長期記憶模塊(LMM),它展現(xiàn)出對語言和語境更深入、更直觀的理解。與Transformer++等強大的基準(zhǔn)模型以及一些最新的循環(huán)模型相比,Titans框架的表現(xiàn)始終優(yōu)于它們,不僅在語言建模方面,在常識推理任務(wù)上也同樣如此。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:改編自??Behrouz等人于2025年發(fā)表的論文??,表1)?

Titans在常識和推理任務(wù)上的表現(xiàn)(混合情況下使用:MAC、MAG、MAL;簡單情況下使用:LMM)

大海撈針挑戰(zhàn)

Titans框架的設(shè)計在S-NIAH任務(wù)中展現(xiàn)出卓越的性能連續(xù)性,這與RULER基準(zhǔn)測試(??Hsieh等人于2024年發(fā)表的論文??,見【引文8】)相符,該基準(zhǔn)測試旨在評估有效的上下文長度。Titans模型(包括獨立的神經(jīng)記憶模型LMM)即使在16K個標(biāo)記的情況下也能保持強勁的檢索率,而一些最先進的循環(huán)模型的準(zhǔn)確率則隨著序列長度的增加而急劇下降。?

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:B??ehrouz等人于2025年發(fā)表的論文??,表2)?

Titans(混合情況下使用:MAC、MAG、MAL;簡單情況下使用:LMM)在RULER的S-NIAH任務(wù)上的表現(xiàn)(出自??Hsieh等人于2024年發(fā)表的論文??,見【引文8】)?

在BABILong中掌握復(fù)雜推理

檢索事實是一回事。但如何運用多個事實,并跨越海量上下文進行推理呢?這才是真正的考驗,也正是BABILong基準(zhǔn)測試(來自??YuryKuratov等人于2024年發(fā)表的論文??,見【引文9】)的要求。Titans(尤其是MAC架構(gòu))不僅表現(xiàn)出色,而且超越了所有模型。即使是像GPT-4和Llama3.1-70B這樣的大型模型,即使是那些能夠訪問外部工具或檢索系統(tǒng)的模型,Titans最大的模型參數(shù)量也高達7.6億!?

除此之外,Titans(MAC混合架構(gòu))即使在1000萬個標(biāo)記的情況下也能達到70%的準(zhǔn)確率。換個角度來看,這就像在整個《哈利·波特》系列中導(dǎo)航和尋找拼圖碎片……甚至還多10倍。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,圖6)?

BABILong上不同LLM的準(zhǔn)確率與序列長度圖(出自??Yury Kuratov等人于2024年發(fā)表的論文??,見【引文9】)?

內(nèi)存深度與速度

研究人員探索了通過堆疊更多層來加深長期記憶模塊(LMM)時會發(fā)生什么。結(jié)果如何?更深層的LMM顯著提升了其存儲和組織重要信息的能力,使其更不容易忘記關(guān)鍵細(xì)節(jié),尤其是在大多數(shù)模型難以保持上下文的長序列中。

雖然LMM本身能夠獲得線性時間復(fù)雜度,從而高效處理大量輸入,但更深的LMM確實需要付出一些代價:吞吐量降低,或者每秒處理的令牌更少。

下面的折線圖展示了不同深度(L_M=1、2、3、4)的LMM模型的訓(xùn)練吞吐量(103標(biāo)記/秒)與序列長度的關(guān)系。所有LMM變體均表現(xiàn)出幾乎恒定的吞吐量,無論序列長度如何,這表明吞吐量呈線性增長。然而,較深的LMM(L_M=3和L_M=4)的吞吐量逐漸低于較淺的LMM(L_M=1和L_M=2),這表明隨著內(nèi)存深度的增加,效率會有所降低。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,圖8)?

不同LMM深度的序列長度與吞吐量

超越語言任務(wù)

另一個令人興奮的事實是,同樣的記憶機制在傳統(tǒng)語言任務(wù)之外也能發(fā)揮作用。在時間序列預(yù)測(一個以混亂、變化的模式而聞名的領(lǐng)域)中,長期記憶模塊(LMM)的表現(xiàn)足以匹敵高度專業(yè)化的模型,包括那些基于Mamba(之前的SOTA)的模型。

在DNA建模這項完全不同的任務(wù)中,該架構(gòu)表現(xiàn)出了強大的效果。這種通用性實屬不易,這表明,如果處理得當(dāng),記憶不僅有用,而且是跨領(lǐng)域的基礎(chǔ)。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:改編自??Behrouz等人于2025年發(fā)表的論文??,表3)?

神經(jīng)記憶(以LMM為模型)在各種時間序列數(shù)據(jù)集上的表現(xiàn)

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,表4)?

神經(jīng)記憶模塊(LMM作為模型)在基因組基準(zhǔn)上的表現(xiàn)(??Gre?ová等人于2023年發(fā)表的論文??,見【引文10】)?

4. 結(jié)論和最終想法

本次對Titans的深入研究就到此結(jié)束。探索這種架構(gòu)真的非常有趣——看到研究超越了規(guī)?;?,深入探究記憶和學(xué)習(xí)如何以更具適應(yīng)性、更像人類的方式運作,令人耳目一新。

谷歌的基礎(chǔ)性工作傳承在此延續(xù),從發(fā)明Transformer到現(xiàn)在重新思考AI如何在推理過程中學(xué)習(xí)。Titans仿佛是這種精神的自然演進。

話雖如此,如今的AI領(lǐng)域比2017年更加擁擠了。無論多么精彩的新想法,要成為主流都面臨著更加艱難的道路。性能只是其中之一——效率、簡潔性和社區(qū)影響力比以往任何時候都更加重要。

盡管如此,Titans有力地預(yù)示著未來模型將不再僅僅基于已知知識進行思考,而是能夠真正地在實踐中適應(yīng)。無論這是否會成為下一個“只需關(guān)注”的時刻,這都是邁向更智能、更智慧的AI的充滿希望的一步。

參考文獻

【1】Tack,Jihoon等人,“??使用連續(xù)概念進行LLM預(yù)訓(xùn)練???!保?025)arXiv預(yù)印本 arXiv:2502.08524。?

【2】Vaswani,Ashish等人,“??你只需要注意力???!保?017),神經(jīng)信息處理系統(tǒng)的進展30。?

【3】Dosovitskiy,Alexey等人,“??一張圖片勝過16×16個單詞:用于大規(guī)模圖像識別的Transformers??。”(2020),arXiv預(yù)印本 arXiv:2010.11929。?

【4】Zerveas,George等人,“??基于Transformer的多元時間序列表示學(xué)習(xí)框架???!?2021),第27屆ACM SIGKDD知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議論文集。?

【5】Rogers,Anna等人,“??BERTology入門:我們對BERT工作原理的了解???!保?021年),計算語言學(xué)協(xié)會匯刊8:842–866。?

【6】Behrouz,Ali、Peilin Zhong和Vahab Mirrokni?!??Titans:學(xué)習(xí)在考試時記憶???!保?024年),arXiv預(yù)印本 arXiv:2501.00663。?

【7】Mandler,George。“??情感與認(rèn)知??”(2014年)。心理學(xué)出版社,3–36。?

【8】Hsieh,Cheng-Ping等人,“??RULER:長上下文語言模型的真實上下文大小是多少???”,載于:第一屆語言建模會議。2024年。?

【9】Kuratov,Yury等人。“??Babilong:用大海撈針的長上下文推理測試LLMS的極限??。”(2024),神經(jīng)信息處理系統(tǒng)進展,37:106519–106554。?

【10】Gre?ová,Katarína等人,“??基因組基準(zhǔn):基因組序列分類數(shù)據(jù)集集合???!保?023)BMC基因組數(shù)據(jù),24.1:25。?

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標(biāo)題:??Can AI Truly Develop a Memory That Adapts Like Ours???,作者:Moulik Gupta

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-6-18 08:21:36修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
成人做爰66片免费看网站| 久久亚洲精品视频| 日韩欧美黄色大片| 国产福利视频在线观看| 高清不卡一二三区| 国产999在线观看| 麻豆视频在线免费看| 你懂的在线观看一区二区| 日本电影亚洲天堂一区| 日本一本草久p| 五月色婷婷综合| 麻豆精品精品国产自在97香蕉| 另类色图亚洲色图| 日本一级免费视频| 国产精品香蕉| 欧美高清精品3d| 69堂免费视频| 欧美xxx黑人xxx水蜜桃| 日本一区二区三区dvd视频在线| 91日本在线观看| 欧美超碰在线观看| 红桃视频国产一区| 日韩中文字幕亚洲| av男人的天堂av| 91精品啪在线观看国产爱臀| 欧美伊人久久大香线蕉综合69 | 在线观看的日韩av| 北条麻妃久久精品| 亚洲自拍偷拍图| 欧美一区二区三区红桃小说| 日韩免费视频一区二区| 久久国产激情视频| 成人午夜精品| 欧美天天综合色影久久精品| 香港三级日本三级a视频| 97在线观看免费观看高清| 久久综合色一综合色88| 国产精品中出一区二区三区| www日本在线| 精品一区二区免费| 国产日韩换脸av一区在线观看| 男人天堂2024| 校园激情久久| 欧美在线一区二区视频| 久久久精品免费看| 亚洲精品人人| 国产69精品久久久| 国产一级免费av| 红桃视频国产一区| 国产做受高潮69| 国产午夜精品无码| 精品成人免费| 午夜欧美大片免费观看| 免费毛片一区二区三区| 一区二区国产精品| **欧美日韩vr在线| 精品欧美一区二区三区免费观看| 亚洲人人精品| 欧美一区二区三区……| 波多野结衣视频网站| 久久国产精品99国产| 国产精品成人av在线| 欧美视频xxxx| 黑人巨大精品欧美一区| 91亚洲国产精品| 不卡av中文字幕| 成人av资源在线观看| 精品久久sese| 日韩a在线观看| 久久久91精品国产一区二区精品| 日韩av不卡在线播放| 最新电影电视剧在线观看免费观看| 国产精品久久久久影院老司| 国产对白在线播放| 国产在线xxx| 日韩欧美亚洲国产一区| 九九视频精品在线观看| 国产精品va视频| 精品国产一区二区精华| 亚洲国产无码精品| 日本电影一区二区| 美日韩精品视频免费看| 天堂在线免费观看视频| 奇米一区二区三区av| 91亚洲精品久久久| 无码精品黑人一区二区三区| 中文字幕免费在线观看视频一区| 在线看无码的免费网站| 麻豆av在线免费观看| 大伊人狠狠躁夜夜躁av一区| 乌克兰美女av| 国产精品17p| 色狠狠久久aa北条麻妃| 久久久久久久久久综合| 日本麻豆一区二区三区视频| 99影视tv| porn视频在线观看| 一级精品视频在线观看宜春院| 国产精品丝袜久久久久久消防器材| 成人综合网站| 亚洲精品福利免费在线观看| 久久视频精品在线观看| 最新国产乱人伦偷精品免费网站| 国产精品久久久久久久久借妻 | 日日骚久久av| 国产精品变态另类虐交| 免费精品视频在线| 久久国产精品 国产精品| 国产二区三区在线| 欧美专区日韩专区| 亚洲精品激情视频| 久久久9色精品国产一区二区三区| 26uuu日韩精品一区二区| 国产精品久久久久毛片| 久久综合狠狠综合久久综合88| 久久久久久久久网| jizz亚洲女人高潮大叫| 精品偷拍各种wc美女嘘嘘| 中文字幕另类日韩欧美亚洲嫩草| 日韩成人精品视频| 久久亚洲综合网| 亚洲区欧洲区| 制服丝袜亚洲网站| 国产精品久久久久久久av| 亚欧美中日韩视频| 国产精品v欧美精品∨日韩| 里番在线观看网站| 日韩欧美一区二区三区| 中国免费黄色片| 欧美激情视频一区二区三区在线播放 | 欧美日韩成人影院| 日韩av在线影院| 国产无遮挡又黄又爽又色| 国产酒店精品激情| 精品国产一区二区三区在线| 91麻豆精品一二三区在线| 一区二区欧美激情| 日批视频免费观看| 国产丝袜美腿一区二区三区| 日韩欧美亚洲天堂| 牛牛影视一区二区三区免费看| 久久久久国产视频| www.五月天激情| 一区二区三区欧美激情| 国产又粗又猛大又黄又爽| 国产精品二区不卡| 成人午夜黄色影院| mm1313亚洲国产精品美女| 6080午夜不卡| 中文字幕在线有码| 国产激情一区二区三区| 水蜜桃在线免费观看| 激情五月综合婷婷| 欧美成人国产va精品日本一级| 国产绿帽一区二区三区| 亚洲人成网站影音先锋播放| 波多野结衣免费观看| 欧美成人亚洲| 国产精品久久亚洲| 女人高潮被爽到呻吟在线观看| 日韩精品在线看| 亚洲s码欧洲m码国产av| 欧美激情在线一区二区| 污污的视频免费| 一区二区三区午夜视频| 不卡的av一区| 日韩电影免费看| 这里只有精品久久| 国产丝袜在线视频| 亚洲成av人片在线| 亚洲专区区免费| 美日韩一区二区| 日日噜噜夜夜狠狠久久丁香五月 | 青青青爽久久午夜综合久久午夜| 亚洲mv在线看| 视频一区中文字幕精品| 欧美在线免费观看| 日本免费中文字幕在线| 精品国产一区二区三区四区四| 极品国产91在线网站| 国产精品久久久久9999吃药| 女王人厕视频2ⅴk| 亚洲在线黄色| 亚洲一区二区精品在线| 国产精品主播在线观看| 国产精品久久久久秋霞鲁丝 | 日韩欧美高清在线播放| wwwxx欧美| 都市激情综合| 久久99亚洲精品| 国产在线小视频| 日韩免费高清av| 中文字幕69页| 亚洲一级二级三级在线免费观看| 亚洲v国产v欧美v久久久久久| 国产乱国产乱300精品| 四虎永久在线精品无码视频| 亚洲精品国产成人影院| 久久99影院| 99热这里有精品| 日本高清视频一区| 免费网站在线观看人| 最近2019年好看中文字幕视频| www.成人免费视频| 欧美日韩视频在线第一区| 日本a在线观看| 亚洲日本青草视频在线怡红院 | 国内外成人免费激情在线视频| 国产在线观看免费网站| 精品粉嫩超白一线天av| 一炮成瘾1v1高h| 精品久久久精品| 国产亚洲成人av| 国产精品久久久久久久久动漫| 屁屁影院国产第一页| 国产乱一区二区| 小泽玛利亚视频在线观看| 亚洲综合国产激情另类一区| 免费cad大片在线观看| 视频在线不卡免费观看| 日本一区二区三区四区在线观看| 2021年精品国产福利在线| 成人久久久久久| 激情欧美一区二区三区黑长吊| 欧美一级高清免费播放| 阿v视频在线观看| 欧美激情中文字幕乱码免费| 成人a在线视频免费观看| 中文字幕自拍vr一区二区三区| 欧美日韩激情视频一区二区三区| 精品国产a毛片| 国产亲伦免费视频播放| 欧美日本国产视频| 中文字幕乱码在线观看| 日本精品视频一区二区三区| 国产又黄又粗又爽| 天天色图综合网| 国产视频91在线| 婷婷开心久久网| 国产精品黄色大片| 欧美日韩国产页| 啦啦啦免费高清视频在线观看| 精品国产1区2区| 日韩精品一区二区三| 婷婷久久综合九色国产成人| 国产在线观看你懂的| 亚洲一二三四在线| 久久精品欧美一区二区| 亚洲成a天堂v人片| 国产系列精品av| 精品久久久久人成| 99精品在线播放| 欧美午夜精品一区二区蜜桃| 中文字幕视频二区| 69堂成人精品免费视频| 99热这里只有精品3| 欧美一级高清片在线观看| 亚洲AV无码一区二区三区性| 欧美v亚洲v综合ⅴ国产v| 六月婷婷中文字幕| 日韩精品高清在线| 韩国中文字幕2020精品| 色偷偷偷综合中文字幕;dd| 成人日韩欧美| 欧美激情2020午夜免费观看| 久草免费在线视频| 国产精品激情自拍| 成人噜噜噜噜| 狠狠色噜噜狠狠色综合久| 九一亚洲精品| 中文字幕黄色大片| 在线不卡亚洲| 国内自拍视频一区| 韩国精品在线观看| 水蜜桃av无码| 国产精品嫩草影院av蜜臀| 欧美精品videos极品| 天天亚洲美女在线视频| 中文在线a天堂| 精品奇米国产一区二区三区| 男女污污视频在线观看| xxx成人少妇69| 免费在线观看的电影网站| 国产999在线观看| 亚洲不卡在线| 日本视频精品一区| 欧美久久一区| 欧美综合在线观看视频| 国内精品第一页| 51调教丨国产调教视频| 国产精品初高中害羞小美女文| 久草视频精品在线| 欧美三级韩国三级日本三斤| 日本高清视频网站| 色婷婷av一区二区三区久久| 国产精品蜜芽在线观看| 成人午夜在线观看| 亚洲欧美成人vr| 免费看欧美黑人毛片| 免费在线观看视频一区| 在线观看国产免费视频| 99在线精品视频免费观看20| 日韩欧美在线视频免费观看| 国产精品无码天天爽视频| 国产视频亚洲精品| 2024短剧网剧在线观看| 国产成人97精品免费看片| 亚洲精品观看| 在线观看亚洲视频啊啊啊啊| 美女精品在线| 中文字幕无码人妻少妇免费| 亚洲男人的天堂在线观看| 中文区中文字幕免费看| 日韩精品中文字幕有码专区| 丁香花视频在线观看| 91免费欧美精品| 日韩精品第一区| 国产精品免费成人| 99热99精品| 日本少妇xxxx动漫| 日韩一区二区三区视频在线观看| jizzjizz在线观看| 日本一欧美一欧美一亚洲视频| 粉嫩久久久久久久极品| 日韩精品一区二区三区四| 黑人巨大精品欧美一区| 91麻豆精品久久毛片一级| 欧美亚洲动漫精品| 黄色电影免费在线看| 欧洲精品久久久| 免费成人蒂法| 欧美日韩在线一| 成人av网站大全| 国产极品在线播放| 精品国产一区二区精华| 久草在线视频福利| 国产精品v欧美精品v日韩精品| 亚洲欧美一级二级三级| 亚洲精品无码久久久久久久| 亚洲视频1区2区| 国产色在线视频| 欧美精品一区三区| 视频精品一区二区三区| 欧美a级免费视频| 懂色av一区二区在线播放| 欧美成人三级在线观看| 欧美成人一区二区三区在线观看| 羞羞的视频在线看| 动漫3d精品一区二区三区| 国产精品红桃| 中国黄色片视频| 欧美日韩国产综合新一区| 天堂91在线| 日韩av片电影专区| 欧美日韩一区二区三区视频播放| 我要看一级黄色大片| 亚洲欧美日韩一区| 亚洲国产精品suv| 欧美亚洲在线观看| jlzzjlzz亚洲女人| 中文 日韩 欧美| 一级女性全黄久久生活片免费| 天天干,天天操,天天射| 国产不卡一区二区在线播放| 日韩在线高清| 日本女人性视频| 福利精品视频在线| 啊v在线视频| 91天堂在线观看| 国产精品久久久久久久久久妞妞| japanese中文字幕| 欧美喷水一区二区| 91在线中文| 久久riav二区三区| 麻豆91小视频| 久久黄色免费视频| 亚洲欧美日韩精品久久| 四虎国产精品免费久久| 日本欧美视频在线观看| 久久精品亚洲精品国产欧美 | 色呦呦在线播放| 黄色99视频| 开心九九激情九九欧美日韩精美视频电影| 国产女人18水真多毛片18精品| 日韩成人激情在线| 宅男噜噜噜66国产精品免费| 亚洲人精品午夜射精日韩| 中文一区在线播放 | 亚洲天堂视频在线观看| 成人国产精品久久| 国产精品丝袜久久久久久消防器材| 国产精品午夜电影| 日韩一区二区三区不卡| 国产精品视频一| 亚洲激情社区| 人人澡人人澡人人看| 日韩风俗一区 二区| www 久久久| 国产精品69页| 亚洲一区电影777|