華為改進(jìn)Transformer架構(gòu)!盤古-π解決特征缺陷問題,同規(guī)模性能超LLaMA
華為盤古系列,帶來架構(gòu)層面上新!
量子位獲悉,華為諾亞方舟實(shí)驗(yàn)室等聯(lián)合推出新型大語言模型架構(gòu):盤古-π。

它通過增強(qiáng)非線性,在傳統(tǒng)Transformer架構(gòu)上做出改進(jìn),由此可以顯著降低特征塌陷問題。
帶來的直接效果就是模型輸出表達(dá)能力更強(qiáng)。
在使用相同數(shù)據(jù)訓(xùn)練的情況下,盤古-π(7B)在多任務(wù)上超越LLaMA 2等同規(guī)模大模型,并能實(shí)現(xiàn)10%的推理加速。
在1B規(guī)模上可達(dá)SOTA。
同時(shí)還基于這一架構(gòu)煉出了一個(gè)金融法律大模型“云山”。
該工作由AI大牛陶大程領(lǐng)銜。
具體如何實(shí)現(xiàn)?一起來看。
利用非線性解決特征塌陷
目前常見大模型基本都采用Transformer架構(gòu),比如GPT、LLaMA等。
它的核心構(gòu)成包括多頭自注意力機(jī)制(MSA)和前饋網(wǎng)絡(luò)(FFN)。

MSA的主要功能是計(jì)算輸入序列中每個(gè)token和其他所有token之間的相關(guān)性,通過學(xué)習(xí)輸入序列中的依賴關(guān)系,可以增強(qiáng)對(duì)語言的理解能力。FFN主要對(duì)輸入進(jìn)行非線性轉(zhuǎn)換,增強(qiáng)模型表達(dá)能力,使其可以逼近更復(fù)雜的函數(shù)。
不過,華為諾亞方舟實(shí)驗(yàn)室發(fā)現(xiàn),特征崩潰(feature collapse)會(huì)影響Transformer架構(gòu)的表現(xiàn),降低其表達(dá)能力,使模型難以區(qū)分不同輸入。
以LLaMA為例,在更深層的神經(jīng)網(wǎng)絡(luò)上,特征等級(jí)顯著降低,導(dǎo)致了所有token之間的相似性更強(qiáng)。
從機(jī)制上來看,自注意力模塊可以看做在完全圖上進(jìn)行信息聚合,連續(xù)堆疊多層注意力就像連續(xù)多層圖卷積一樣,會(huì)產(chǎn)生過度特征平滑效應(yīng)。
另一方面,多層感知器(MLP)中的激活函數(shù)提供的非線性還不夠,抑制特征崩潰的作用有限。
由此,團(tuán)隊(duì)想要提高模型的非線性表達(dá)能力,避免特征崩潰,進(jìn)而提出了本次工作盤古-π。
如下是盤古-π的結(jié)構(gòu)示意:

在FFN中加入串聯(lián)激活函數(shù),在MSA中集成一種增強(qiáng)快捷連接(Aug-S),可以更有效地在Transformer架構(gòu)中引入更多非線性。

使用了增強(qiáng)快捷連接(Aug-S)的MSA,能將每個(gè)token的特征轉(zhuǎn)換為不同表示形式。
基于這一新架構(gòu),通過大規(guī)模訓(xùn)練和微調(diào),研究團(tuán)隊(duì)開發(fā)了一個(gè)盤古-π基礎(chǔ)模型。
實(shí)驗(yàn)結(jié)果顯示,該模型在多任務(wù)中表現(xiàn)超越其他同規(guī)模模型(分別測(cè)試了7B和1B規(guī)模)。
而且盤古-π-7B可以達(dá)到約10%的推理加速。


同時(shí)團(tuán)隊(duì)還以此為基礎(chǔ)開發(fā)了一個(gè)金融法律領(lǐng)域大模型“云山”,它同樣在多個(gè)benchmark中成績(jī)超越其他模型。


通訊作者為陶大程
值得關(guān)注的是,本項(xiàng)研究的團(tuán)隊(duì)陣容也非常亮眼。
通訊作者為陶大程。
他是歐洲科學(xué)院外籍院士、澳大利亞科學(xué)院院士。本科就讀于中科大,說是畢業(yè)于港中文MMLab、師從湯曉鷗。
2007年從博士畢業(yè)后,先后在中國(guó)香港理工大學(xué)、新加坡南洋理工大學(xué),澳大利亞悉尼科技大學(xué)、悉尼大學(xué)任教。目前是清華大學(xué)智能產(chǎn)業(yè)研究院AIR團(tuán)隊(duì)卓越訪問教授。
與此同時(shí),他還先后加盟過優(yōu)必選、京東,曾是京東最高級(jí)別AI科學(xué)家、擔(dān)任京東探索研究院院長(zhǎng)。

一作為王云鶴。
他是2012實(shí)驗(yàn)室諾亞方舟實(shí)驗(yàn)室高級(jí)研究員,現(xiàn)任算法應(yīng)用部部長(zhǎng)。
王云鶴在華為負(fù)責(zé)高效AI算法的創(chuàng)新研發(fā)以及在華為業(yè)務(wù)中的應(yīng)用。他和團(tuán)隊(duì)開發(fā)了高效AI算法,其衍生應(yīng)用在中國(guó)天眼FAST觀測(cè)工作中,協(xié)助中科院國(guó)家天文臺(tái)專家找到了數(shù)百個(gè)新的快速射電暴樣本。

論文地址:http://arxiv.org/abs/2312.17276






























