精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語言模型

人工智能
將來在對(duì)長(zhǎng)視頻進(jìn)行建模時(shí),我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對(duì)Transformer來說是一種負(fù)擔(dān),但對(duì)TTT層來說是一種福音。

新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)!

核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。

甚至在測(cè)試時(shí)都可以學(xué)習(xí),所以該方法稱為TTT(Test-Time Training)。

共同一作UC伯克利的Karen Dalal表示:我相信這將從根本上改變語言模型。

圖片圖片

一個(gè)TTT層擁有比RNN表達(dá)能力更強(qiáng)的隱藏狀態(tài),可以直接取代Transformer中昂貴的自注意力層。

在實(shí)驗(yàn)中,隱藏狀態(tài)是線性模型的TTT-Linear表現(xiàn)超過了Transformer和Mamba,用更少的算力達(dá)到更低的困惑度(左),也能更好利用長(zhǎng)上下文(右)。

圖片圖片

此外,隱藏狀態(tài)是MLP模型的TTT-MLP在32k長(zhǎng)上下文時(shí)表現(xiàn)還要更好。

圖片圖片

Karen Dalel還指出,理論上可學(xué)習(xí)的隱藏狀態(tài)可以是任意模型,對(duì)于更長(zhǎng)上下文來說,可以是CNN、甚至可以是完整的Transformer來套娃。

目前剛剛出爐的TTT論文已經(jīng)在學(xué)術(shù)界引起關(guān)注和討論,斯坦福博士生Andrew Gao認(rèn)為,這篇論文或許能成為下一篇Attention is all you need。

圖片圖片

另外有人表示,眾多新架構(gòu)能否真正擊敗Transformer,還要看能不能擴(kuò)展到更大規(guī)模。

Karen Dalel透露,馬上就會(huì)推出7B模型。

圖片圖片

用機(jī)器學(xué)習(xí)模型來壓縮上下文

傳統(tǒng)RNN,隱藏狀態(tài)固定大小表達(dá)能力受限,也不好并行訓(xùn)練。

Transformer強(qiáng)大,但自注意力機(jī)制隨上下文長(zhǎng)度呈平方復(fù)雜度,非常昂貴。

最近一系列基于RNN的架構(gòu)創(chuàng)新中:

RWKV,用線性注意力結(jié)合RNN和Transformer的優(yōu)點(diǎn),在訓(xùn)練時(shí)可以并行計(jì)算。

Mamba,賦予模型選擇性記住或遺忘信息的能力來壓縮上下文,同時(shí)設(shè)計(jì)了面向硬件的高效并行算法。

它們的表現(xiàn)在短上下文時(shí)追上甚至超越了Transformer,但在32k超長(zhǎng)上下文以上,Trasformer依舊稱霸。

圖片圖片

TTT團(tuán)隊(duì)的想法來自于:與其讓隱藏狀態(tài)被動(dòng)地儲(chǔ)存信息,不如讓它主動(dòng)學(xué)習(xí)。

就像Transformer模型作為一個(gè)整體在壓縮互聯(lián)網(wǎng)數(shù)據(jù)到參數(shù)中一樣,可學(xué)習(xí)的隱藏狀態(tài)模型也在少量參數(shù)上不斷縮上下文信息。

這種“隱藏狀態(tài)模型”隨著時(shí)間的推移仍然具有固定的大?。ü潭ǖ哪P蛥?shù)),但表達(dá)能力更強(qiáng)了。

論文的聯(lián)合指導(dǎo)UCSD助理教授王小龍認(rèn)為:

Transformer顯式地儲(chǔ)存所有輸入token,如果你認(rèn)為個(gè)神經(jīng)網(wǎng)絡(luò)是壓縮信息的好方法,那么壓縮這些token也將是有意義的。

圖片圖片

如此一來,整個(gè)框架的時(shí)間復(fù)雜度還是線性的,

圖片圖片

至此,序列建模被拆解為兩個(gè)嵌套的學(xué)習(xí)循環(huán),外循環(huán)負(fù)責(zé)整體的語言建模,內(nèi)循環(huán)通過自監(jiān)督學(xué)習(xí)壓縮上下文信息。

外循環(huán)的參數(shù)變成了內(nèi)循環(huán)的超參數(shù),也就是元學(xué)習(xí)的一個(gè)變種了。

標(biāo)準(zhǔn)的元學(xué)習(xí)是訓(xùn)練一個(gè)適應(yīng)不同任務(wù)的模型,而TTT是讓模型去適應(yīng)每一個(gè)測(cè)試樣本。單個(gè)樣本雖然信息量小,但用來訓(xùn)練隱藏狀態(tài)模型也綽綽有余。

圖片圖片

特別的,在內(nèi)循環(huán)是一個(gè)線性模型時(shí),相當(dāng)于線性注意力。當(dāng)內(nèi)循環(huán)是一個(gè)Nadaraya-Watson estimator時(shí),TTT等價(jià)于自注意力。

圖片圖片

在測(cè)試時(shí)學(xué)習(xí)

在TTT層里,使用自監(jiān)督學(xué)習(xí)方法將上下文壓縮到隱藏狀態(tài)。

上下文就是未標(biāo)記的數(shù)據(jù)集,隱藏狀態(tài)不再是一個(gè)固定的向量,可以是線性模型、小型神經(jīng)網(wǎng)絡(luò)或任何機(jī)器學(xué)習(xí)模型,更新規(guī)則采用了在自監(jiān)督損失上的一步梯度下降。

這樣一來,隱藏狀態(tài)模型可以記住產(chǎn)生大梯度的輸入,并且可以獲得比選擇性遺忘機(jī)制更強(qiáng)的擬合和泛化能力,并且在測(cè)試時(shí)仍然為每個(gè)輸入序列訓(xùn)練不同的參數(shù)。

圖片圖片

到目前為止,樸素的TTT層已經(jīng)有效了,但還無法并行化。

團(tuán)隊(duì)提出的解決方案為mini-batch梯度下降,把一個(gè)batch內(nèi)的梯度計(jì)算并行化。

再通過Dual form方法,只在mini-batch結(jié)束時(shí)計(jì)算權(quán)重以及輸出token,避免冗余計(jì)算。在JAX版實(shí)現(xiàn)中快了5倍以上。

圖片圖片

TTT能否成為“Transformer殺手”?

理論上都走的通了,那么TTT在實(shí)驗(yàn)中表現(xiàn)到底如何?

最簡(jiǎn)單干凈的測(cè)試方法,應(yīng)該是直接替換掉Transformer中的自注意力層。

但是在研究過程中,團(tuán)隊(duì)發(fā)現(xiàn)Mamba等現(xiàn)代RNN的骨干中在RNN層之前還包含時(shí)間卷積,對(duì)TTT也有幫助。

所以實(shí)驗(yàn)中TTT-Linear和TTT-MLP主要應(yīng)用到Mamba骨干上,其他訓(xùn)練細(xì)節(jié)也嚴(yán)格遵照Mamba論文中的設(shè)置。

最終在Pile數(shù)據(jù)集短上下文測(cè)試中:

  • 2k上下文時(shí),TTT-Linear、Mamba和Transform具有相當(dāng)?shù)男阅?,TTT-MLP的表現(xiàn)略差。
  • 8k上下文時(shí),TTT-Linear和TTT-MLP都優(yōu)于Mamba和Transformer,應(yīng)用在Transformer骨干的TTT-MLP(T)在1.3B參數(shù)左右也略好與Mamba。

總的來說,隨著上下文長(zhǎng)度的增長(zhǎng),TTT層相對(duì)于Mamba的優(yōu)勢(shì)也會(huì)擴(kuò)大。

另外團(tuán)隊(duì)猜測(cè),線性模型比MLP表達(dá)能力差,因此從Mamba骨干的卷積中受益更多。

圖片圖片

長(zhǎng)上下文實(shí)驗(yàn)使用Pile的子集Books3:

  • 32k上下文,TTT-Linear和TTT-MLP的表現(xiàn)都優(yōu)于曼巴,類似于Pile 8k的觀察。即使是帶有Transformer骨干的TTT-MLP(T)表現(xiàn)也略好于曼巴。
  • 1.3B參數(shù)尺度上,TTT-MLP(T)僅比TTT-MLP(M)稍差,Transformer骨干可能更適合論文評(píng)估范圍之外的更大模型和更長(zhǎng)的上下文。

圖片圖片

在A100上測(cè)試速度,TTT-Linear在預(yù)填充階段比Mamba稍快,解碼階段幾乎與Mamba速度相同。TTT-MLP相比Transformer整體上也有線性復(fù)雜度的優(yōu)勢(shì)。

圖片圖片

共同一作Karan Dala表示:我一直被問到的一個(gè)問題是,我們是否相信TTT就是“Transformer殺手”,我仍然認(rèn)為我們需要繼續(xù)努力。

隱藏狀態(tài)可以是任意模型,但目前的研究只涉及了線性模型和小型MLP,更復(fù)雜的還有待研究。

隱藏狀態(tài)模型的學(xué)習(xí)可以用Adam代替普通的梯度下降等等。

還可用于視頻建模

三位共同一作中:

Yu Sun博士畢業(yè)于UC Berkeley,目前是斯坦福大學(xué)博士后。

圖片圖片

Xinhao Li是電子科技大學(xué)校友,碩士畢業(yè)于UCSD。

圖片圖片

Karan Dalel本科畢業(yè)于UC Berkley,正在機(jī)器人初創(chuàng)公司1X實(shí)習(xí)。

圖片圖片

最后,聯(lián)合指導(dǎo)UCSD助理教授王小龍還透露,TTT方法除了語言模型,還適用于視頻。

TTT就是“Transformer殺手”,我仍然認(rèn)為我們需要繼續(xù)努力。

將來在對(duì)長(zhǎng)視頻進(jìn)行建模時(shí),我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對(duì)Transformer來說是一種負(fù)擔(dān),但對(duì)TTT層來說是一種福音。

圖片圖片

論文地址:https://arxiv.org/abs/2407.04620

參考鏈接:[1]https://x.com/karansdalal/status/1810338845659131940[2]https://x.com/xiaolonw/status/1810387662060269668

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2009-06-30 19:32:16

SUN云計(jì)算IT

2023-03-20 14:08:00

元宇宙

2012-10-22 16:34:37

JavaJava8Lambda

2022-02-15 14:58:29

區(qū)塊鏈娛樂加密貨幣

2023-11-30 15:17:21

人工智能業(yè)務(wù)流程

2020-04-26 10:00:48

大數(shù)據(jù)文件傳輸

2023-09-26 14:31:51

元宇宙

2022-01-11 14:05:01

區(qū)塊鏈技術(shù)數(shù)據(jù)

2014-12-31 10:37:09

2024-04-15 07:50:00

AI架構(gòu)

2025-10-29 16:42:06

DeepSeekOCR 模型

2018-11-05 15:28:05

2025-07-10 08:55:00

模型AI論文

2021-11-19 10:13:01

模型人工智能計(jì)算

2025-01-16 08:20:00

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型

2023-11-22 09:00:00

NLP語言模型LSTM

2025-02-25 10:34:10

2023-02-25 16:14:36

AIMeta語言模型

2011-03-02 14:34:54

NVIDIA工作站
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

东京一区二区| 亚洲 欧美 自拍偷拍| 欧美成人有码| 日韩精品视频免费专区在线播放| 国产美女三级视频| 中文字幕在线观看日本| 国产精品123| 45www国产精品网站| 影音先锋男人资源在线观看| ccyy激情综合| 欧美丝袜丝交足nylons图片| 农民人伦一区二区三区| seseavlu视频在线| 大陆成人av片| 成人啪啪免费看| 中文字幕高清在线免费播放| 欧美成人久久| 中文在线不卡视频| a天堂视频在线观看| 亚洲青青一区| 欧洲人成人精品| 国产v片免费观看| 黄色片免费在线观看| 久久新电视剧免费观看| 99porn视频在线| 亚洲图片中文字幕| 免费中文字幕日韩欧美| 欧美极品在线播放| 国产精品国产三级国产传播| 欧美美乳视频| 国产丝袜精品视频| 动漫av在线免费观看| 亚洲一区二区av| 欧美日韩视频第一区| 欧美极品欧美精品欧美图片| 91禁在线看| 亚洲精品高清视频在线观看| 亚洲三区视频| 成人av一区| 久久久不卡网国产精品二区 | 黄色激情视频在线观看| 国产精品传媒精东影业在线| 中文字幕久精品免费视频| 一级性生活大片| 极品尤物一区| 精品国产不卡一区二区三区| 色悠悠在线视频| 中文字幕av一区二区三区四区| 在线成人高清不卡| 国产区二区三区| 精品69视频一区二区三区| 91精品1区2区| 男人搞女人网站| 三上悠亚激情av一区二区三区| 欧美日韩亚洲天堂| 男人天堂999| 亚洲伊人av| 91成人免费在线| 亚洲xxxx2d动漫1| 伊人久久大香| 日韩一区二区在线免费观看| 永久免费看片在线观看| 在这里有精品| 日韩av网址在线| 公侵犯人妻一区二区三区| 免费av一区二区三区四区| 亚洲性日韩精品一区二区| 国产又黄又粗的视频| 93在线视频精品免费观看| 日韩在线观看免费| 精品无码久久久久久久久| 亚洲每日在线| 国产精品18久久久久久麻辣| 一本色道久久综合精品婷婷 | 91视频88av| 亚洲国产成人在线观看| 99久久国产综合精品女不卡| 欧美激情论坛| 91大神在线网站| 亚洲综合一区二区精品导航| 成人av一级片| 91国拍精品国产粉嫩亚洲一区| 欧美顶级少妇做爰| 久久精品女同亚洲女同13| 香蕉久久夜色精品国产使用方法 | 日韩视频在线观看免费视频| 欧美gvvideo网站| 欧美激情久久久| 青青青国产在线| 国内精品不卡在线| 精品国产乱码久久久久久蜜柚| www.在线播放| 亚洲电影一区二区| 孩娇小videos精品| 成人高潮a毛片免费观看网站| 亚洲欧美国产精品va在线观看| 日本 欧美 国产| 99成人免费视频| 国产欧美一区二区白浆黑人| 亚洲精品久久久久久久久久| 国产夜色精品一区二区av| 在线播放 亚洲| 亚洲日本天堂| 精品久久久久久亚洲综合网| 国产传媒国产传媒| 亚洲国产91| 国产日韩在线观看av| 亚洲av成人无码久久精品老人| 国产精品初高中害羞小美女文| 成年人午夜视频在线观看 | 国产三区精品| 亚洲s色大片| 欧美香蕉大胸在线视频观看 | 久久综合成人精品亚洲另类欧美 | 久久精品国产久精国产爱| 国产伦理一区二区三区| 免费超碰在线| 一本到一区二区三区| 在线播放av网址| 亚洲国产精品综合久久久 | 免费无码国产精品| 菠萝蜜视频在线观看一区| 中国成人在线视频| 国产综合色区在线观看| 日韩精品视频在线观看免费| 青青操国产视频| 激情深爱一区二区| 亚洲乱码一区二区三区三上悠亚| 亚洲优女在线| 亚洲国产精品字幕| 精品少妇爆乳无码av无码专区| 精品写真视频在线观看| 日韩精彩视频| 日本免费久久| 亚洲乱码一区av黑人高潮| 亚洲国产精品成人无久久精品 | 欧美 日本 国产| 激情视频一区| 国产精品露出视频| 操喷在线视频| 精品国产一区二区三区不卡| 久久久久性色av无码一区二区| 国产一区二区网址| 精品一区二区三区毛片| 国产精品国产三级在线观看| www.亚洲天堂| 国产巨乳在线观看| 亚洲精品自拍动漫在线| 午夜影院免费版| 欧美成人亚洲| 国产一区二区免费电影| 蜜桃视频m3u8在线观看| 日韩精品在线播放| 无码任你躁久久久久久久| 久久婷婷久久一区二区三区| 日本中文字幕片| 免费精品国产| 国产精品久久久久久久久久| av女优在线| 9191久久久久久久久久久| 亚洲色婷婷一区二区三区| 国产白丝精品91爽爽久久| 女人帮男人橹视频播放| 另类春色校园亚洲| 国产精品观看在线亚洲人成网| 中文字幕在线观看日本| 欧美一区二区三区成人| 国产一级免费av| www久久精品| 9久久婷婷国产综合精品性色| 日韩精品一区二区三区免费观影| 成人网在线观看| 久草在线视频资源| 精品亚洲精品福利线在观看| 日韩欧美国产另类| 亚洲人成网站在线| 国产成人av无码精品| 日日摸夜夜添夜夜添精品视频| 亚洲欧洲一二三| 中文字幕久久精品一区二区| 清纯唯美亚洲激情| 哥也色在线视频| 日韩av综合网站| 中文字幕在线观看视频一区| 夜夜夜精品看看| 欧美狂猛xxxxx乱大交3| 国产一区二区视频在线| 高清在线观看免费| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 精品国产鲁一鲁一区二区张丽 | 韩国三级与黑人| 久久精品1区| 浴室偷拍美女洗澡456在线| 欧美网色网址| 7777精品久久久大香线蕉小说| 极品美鲍一区| 不卡av在线网站| 蝌蚪视频在线播放| 日韩免费性生活视频播放| aaaaaa毛片| 亚洲图片一区二区| 91香蕉视频网| 久久综合色8888| 黄页网站在线看| 免费成人在线观看| 777精品久无码人妻蜜桃| 亚洲电影影音先锋| 日韩尤物视频| 丝袜久久网站| 超碰在线观看97| 亚洲黑人在线| 国产精品久久激情| 伊人久久精品一区二区三区| 美女久久久久久久久久久| 成人免费黄色网页| 日韩精品欧美激情| 日韩一级免费视频| 日韩欧美资源站| 中文字幕免费播放| 色婷婷综合久久久久中文一区二区| 欧美日韩偷拍视频| 亚洲精品视频一区二区| 2017亚洲天堂| 国产精品三级视频| 国产精品国产三级国产专业不 | 国产伦精品一区二区三区视频青涩| 黄在线观看网站| 99精品免费| www.男人天堂网| 欧美激情91| 三年中文高清在线观看第6集 | 久久这里只有精品视频网| 中文在线字幕观看| 国产精品一二三四五| 亚洲精品mv在线观看| 久88久久88久久久| 最新av免费在线观看| 日韩激情视频网站| 91香蕉视频污版| 蜜臀av性久久久久蜜臀aⅴ流畅| 国产激情在线观看视频| 久久精品人人做人人爽电影蜜月| 凹凸国产熟女精品视频| 国产精品久久久久久模特| 国产成人精品视频免费看| 免费在线日韩av| 国产亚洲天堂网| 免费在线成人网| 可以看污的网站| 国产一区二区三区综合| 少妇愉情理伦片bd| 豆国产96在线|亚洲| 午夜剧场免费看| bt7086福利一区国产| 人妻少妇精品视频一区二区三区| xfplay精品久久| 我想看黄色大片| 日韩一区中文字幕| 免费在线观看h片| 亚洲va韩国va欧美va精品 | 久久精品日韩欧美| 亚洲欧美国产日韩综合| 精品一区二区三区久久| 中国老熟女重囗味hdxx| 99这里只有精品| 在线观看国产精品一区| 亚洲欧洲精品一区二区三区不卡| 国产盗摄一区二区三区在线| 亚洲一区二区三区在线| www亚洲视频| 欧美日韩国产天堂| 亚洲国产福利视频| 亚洲天堂色网站| 国产激情视频在线观看| 久久久亚洲国产| 欧美123区| 99国产在线视频| 亚洲免费福利一区| 一区国产精品| 亚洲二区免费| jizzzz日本| 99在线精品一区二区三区| 91激情视频在线观看| 亚洲欧美日韩国产成人精品影院| 在线观看 中文字幕| 欧美日韩国产一级片| 性感美女一级片| 日韩在线观看av| 小早川怜子影音先锋在线观看| 成人免费淫片视频软件| 亚洲福利网站| 佐佐木明希av| 老司机精品福利视频| 手机在线播放av| 国产精品天干天干在观线| 国产精品第72页| 91.麻豆视频| 日本私人网站在线观看| 欧美不卡视频一区发布| 国产精品字幕| 国产一区精品在线| 99久久综合狠狠综合久久aⅴ| 69堂免费视频| 粉嫩绯色av一区二区在线观看 | 国产精品成人一区二区不卡| 日韩激情免费视频| 粉嫩aⅴ一区二区三区四区| 免费观看特级毛片| 狠狠躁夜夜躁人人爽超碰91| 午夜精品久久久久久久91蜜桃| 在线看日韩av| 美女日韩欧美| 精品视频在线观看| 欧美福利视频| av在线免费看片| 国产欧美日韩在线看| 国内精品福利视频| 亚洲第一区第一页| 日本片在线观看| 亚洲综合大片69999| 久久国产影院| 91香蕉视频污版| 久久久久久久久久电影| 日韩成人高清视频| 精品国产髙清在线看国产毛片| 黄色在线免费看| 国产欧美在线视频| 色天天久久综合婷婷女18| 欧美激情精品久久久久久小说| 2021中文字幕一区亚洲| 亚洲黄色小说图片| 亚洲的天堂在线中文字幕| 七七成人影院| 国产精品99久久久久久久| 欧美久久综合| 又色又爽又黄18网站| 亚洲精品中文在线观看| www.久久精品.com| 免费不卡欧美自拍视频| 成人网av.com/| 欧美另类videos| 国产高清在线精品| 免费麻豆国产一区二区三区四区| 欧美大片国产精品| 国产第一页在线| 精品欧美国产一区二区三区不卡| 亚洲国产一区二区三区a毛片| 国产白袜脚足j棉袜在线观看| 亚洲综合在线观看视频| 欧性猛交ⅹxxx乱大交| 97视频在线免费观看| 日韩av黄色在线| 国产一区二区视频免费在线观看 | 亚洲v国产v| 激情综合色综合久久综合| 丝袜 亚洲 另类 欧美 重口| 日韩欧美中文字幕精品| 超级碰碰不卡在线视频| 麻豆av一区二区三区| 日韩国产在线观看| 欧美性生交大片| 精品国产免费一区二区三区香蕉 | 国产欧美精品日韩精品| 国产精品精品| 国产伦理在线观看| 精品久久久久久久久中文字幕| 人操人视频在线观看| 国产精品免费久久久久久| 亚洲国产精品久久久久蝴蝶传媒| 亚洲美女精品视频| 色婷婷亚洲一区二区三区| av网站在线免费观看| 91福利视频导航| 亚洲女优在线| 视频国产一区二区| 欧美精品一区二区三区视频| 国模冰冰炮一区二区| 在线精品日韩| 99热精品国产| 影音先锋国产在线| 欧美第一页在线| 久久综合色占| 乳色吐息在线观看| 色欧美片视频在线观看在线视频| 国产一二区在线| 久久国产精品一区二区三区| 另类调教123区| 欧美精品二区三区| 久久久999精品| 免费一区二区三区视频导航| 国产亚洲色婷婷久久| 日本韩国欧美一区二区三区| 中文字幕伦理免费在线视频| 免费一区二区三区在在线视频| 精品一区二区免费在线观看| 国产小视频在线免费观看| 久久久精品视频成人| 伊人久久大香线蕉综合网站| 中文字幕av一区二区三区人妻少妇| 日韩欧美亚洲范冰冰与中字|