精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

模塊化大模型來(lái)了!IBM公開WastonX核心架構(gòu)技術(shù)細(xì)節(jié)

人工智能 新聞
在這篇論文中,我們提出了一種新的模塊化架構(gòu)ModuleFormer,以及與之相關(guān)的模塊操作方法。

大型語(yǔ)言模型(LLMs)的性能非常強(qiáng)大,但是現(xiàn)有的模型訓(xùn)練和部署成本都很高。而且在不忘記先前知識(shí)的前提,擴(kuò)展它們?nèi)W(xué)習(xí)新的知識(shí)也很困難。也很難針對(duì)特定的任務(wù)去提取出輕量化的模型。

最近,來(lái)自MIT-IBM Waston AI Lab、清華大學(xué)、Mila的研究人員聯(lián)合提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)ModuleFormer,利用模塊化來(lái)大幅提高大型語(yǔ)言模型的效率和靈活性。

ModuleFormer是一種基于稀疏專家混合(SMoE)的模塊化架構(gòu),包括兩種不同類型的模塊,即新的stick-breaking注意力專家模塊和傳統(tǒng)的MLP專家模塊。在訓(xùn)練和推理過(guò)程中,根據(jù)輸入的向量,不同的模塊會(huì)被稀疏地激活。

與之前基于SMoE的模塊化語(yǔ)言模型不同,ModuleFormer可以通過(guò)其新的負(fù)載平衡(load balance)和負(fù)載集中(load concentration)損失函數(shù)從未經(jīng)篩選的數(shù)據(jù)中誘導(dǎo)出模塊化。

在實(shí)驗(yàn)中,團(tuán)隊(duì)發(fā)現(xiàn)模塊化架構(gòu)使得大型預(yù)訓(xùn)練語(yǔ)言模型具備了三個(gè)重要的能力:

1)效率

因?yàn)镸oduleFormer只對(duì)每個(gè)輸入只激活一小部分模塊,因此可以以兩倍以上的吞吐量達(dá)到與常規(guī)語(yǔ)言模型相同的性能。

2)可擴(kuò)展性

實(shí)驗(yàn)表明,由于微調(diào)階段ModuleFormer只需要更新一部分的模塊,因此比常規(guī)語(yǔ)言模型更不容易發(fā)生災(zāi)難性遺忘,并且可以輕松通過(guò)新的模塊擴(kuò)展以學(xué)習(xí)訓(xùn)練數(shù)據(jù)中不包含的新知識(shí)。

3)模塊特異化和篩選

在微調(diào)階段ModuleFormer,新提出的負(fù)載集中損失函數(shù)可以自動(dòng)篩選一部分模塊,讓它們專注于目標(biāo)任務(wù),而與任務(wù)無(wú)關(guān)的模塊可以被直接拋棄掉以實(shí)現(xiàn)輕量化部署。

導(dǎo)言

盡管現(xiàn)代大型語(yǔ)言模型(LLM)在某些任務(wù)上取得了顯著的成果,甚至超過(guò)了人類的表現(xiàn),但其效率和靈活性仍然不高。

大多數(shù)LLM(例如Llama,F(xiàn)alcon)在推理和訓(xùn)練過(guò)程中都使用了它們的全部參數(shù),我們稱這些模型為密集模型。

然而,先前的研究已經(jīng)表明,在執(zhí)行任何特定任務(wù)時(shí),神經(jīng)模型中的大部分參數(shù)都可以在不影響模型性能的前提下被剪枝掉。

此外,一旦訓(xùn)練完成,LLM就會(huì)“定格在某個(gè)時(shí)間點(diǎn)”,但許多實(shí)際應(yīng)用情況要求LLM具有最新的知識(shí)。因此模型進(jìn)行continue leanring的擴(kuò)展能力也十分重要。

隨著模型規(guī)模的增長(zhǎng),為了領(lǐng)域適應(yīng)或持續(xù)學(xué)習(xí)而對(duì)整個(gè)模型進(jìn)行微調(diào)變得代價(jià)高昂且計(jì)算資源受限,這使得那些計(jì)算預(yù)算較小的用戶無(wú)法實(shí)施。同時(shí),更新所有參數(shù)也使得模型容易遭受災(zāi)難性遺忘(catastrophic forgetting)。

為此,像LoRA這樣僅更新一小部分原始參數(shù)修正量的輕量級(jí)適應(yīng)方法正在變得流行。

然而實(shí)驗(yàn)表明,這種方法仍然可能遭受災(zāi)難性遺忘影響,并且LoRA并不擅長(zhǎng)需要模型學(xué)習(xí)大量新知識(shí)的場(chǎng)景,比如讓模型學(xué)習(xí)一種新的語(yǔ)言。

文章作者認(rèn)為模塊化是解決前述問(wèn)題的一個(gè)好方法。模塊化模型具有以下幾個(gè)優(yōu)點(diǎn):

  • 模型可以在輸入或任務(wù)上激活一組模塊條件,從而比密集激活整個(gè)模型需要更少的計(jì)算量;
  • 在給定領(lǐng)域或任務(wù)的情況下,可以組裝一組與領(lǐng)域/任務(wù)相關(guān)的模塊,形成一個(gè)新的輕量級(jí)模型;
  • 模型可以輕松添加新的模塊進(jìn)行領(lǐng)域適應(yīng)或持續(xù)學(xué)習(xí);
  • 模型可能更不容易發(fā)生災(zāi)難性遺忘,因?yàn)橹挥信c輸入相關(guān)的模塊在模型微調(diào)期間進(jìn)行更新。

這篇論文提出了一種新的模塊化架構(gòu),ModuleFormer(圖1a),以及在其中進(jìn)行模塊操作的方法。ModuleFormer每層包含一個(gè)組前饋神經(jīng)網(wǎng)絡(luò)(MLP)專家模塊和一組新提出的Stickbreaking注意力專家模塊。

為了平衡在訓(xùn)練過(guò)程中不同模塊的負(fù)載,作者提出了一種新的互信息損失函數(shù)。此外,文章還展示了如何在ModuleFormer中插入新模塊(圖1b)和進(jìn)行模塊修剪(圖1c)。

為了實(shí)現(xiàn)模塊修建,文章引入了一種新的負(fù)載集中損失函數(shù),用于在微調(diào)的過(guò)程中自動(dòng)選擇最適合執(zhí)行給定任務(wù)的模塊,同時(shí)通過(guò)微調(diào)進(jìn)一步增強(qiáng)了這些模塊執(zhí)行該任務(wù)的能力。

實(shí)驗(yàn)結(jié)果顯示ModuleFormer相對(duì)于密集模型在以下方面有顯著的提升:

  • 由于稀疏的模塊激活機(jī)制(圖1a)它在更低的延遲(50%)和更小的內(nèi)存占用下實(shí)現(xiàn)了與密集LLM相同的性能,因此ModuleFormer可以實(shí)現(xiàn)密集模型兩倍的吞吐量。
  • 在對(duì)新領(lǐng)域進(jìn)行微調(diào)后,它收到災(zāi)難性遺忘的影響較低,并且也可以輕松地通過(guò)添加新模塊來(lái)學(xué)習(xí)新語(yǔ)言和知識(shí)。(圖1b)。
  • 它可以在下游任務(wù)上進(jìn)行微調(diào),將一部分模塊特異化成為處理該任務(wù)專用的模塊,而未使用的模塊可以被扔掉而不會(huì)犧牲模型在該任務(wù)上的性能(圖1c)。

詳解ModuleFormer模型

Sparse Mixture of Experts(SMoE)的基本結(jié)構(gòu)

SMoE最早由Shazeer在《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》一文中提出。

每個(gè)SMoE層包含一組用于處理輸入產(chǎn)生輸出的專家模塊m_1, m_2, …, m_n,以及一個(gè)用于挑選專家的路由函數(shù)g。在本篇文章中,路由函數(shù)由一個(gè)一層的神經(jīng)網(wǎng)絡(luò)來(lái)建模:


在給定一個(gè)輸入向量x之后,路由函數(shù)g會(huì)計(jì)算一個(gè)專家模塊的概率分布g(m|x),然后模型會(huì)自動(dòng)選擇分布中前top k的專家模塊來(lái)處理輸入x。SMoE層的輸出就是專家模塊的輸出通過(guò)對(duì)應(yīng)的路由概率家和得到:

圖片

其中不再topk內(nèi)的專家模塊不會(huì)被計(jì)算,同時(shí)對(duì)應(yīng)的概率g也會(huì)被用0替代。

在ModuleFormer中,作者使用了兩種不同的專家模塊來(lái)分別構(gòu)建傳統(tǒng)transformer解碼器中的自注意力層(self attention)和前饋層(MLP)。其中前饋層的專家模塊和常見(jiàn)的SMoE專家模塊一致,是一個(gè)單一隱藏層的全連通神經(jīng)網(wǎng)絡(luò)。而自注意力層的專家模塊則是一個(gè)新提出的stick-breaking注意力模塊。

Stick-Breaking注意力模塊

Stick-Breaking自注意力是設(shè)計(jì)用于取代Transformer解碼器的自注意力層,使用狄利克雷過(guò)程中的Stick-Breaking(折棍子)過(guò)程對(duì)每個(gè)字符xt與之前的字符x<t之間的注意力分布進(jìn)行建模,而不是標(biāo)準(zhǔn)自注意力層中的softmax函數(shù)。

Stick-Breaking自注意力的優(yōu)勢(shì)在于它會(huì)自動(dòng)關(guān)注最近的相關(guān)字符,而不需要引入額外的位置信息,比如position embedding和relative position bias。

給定一個(gè)包含 t 個(gè)時(shí)間步的輸入向量序列 x1, x2, …, xt,每個(gè)輸入被投影到一系列key向量 k1, k2, …, kt 和一系列value向量 v1, v2, …, vt。為了計(jì)算時(shí)間 t 的注意力,輸入 x_t 被投影到一個(gè)查詢向量 q_t = W_q x_t,其中 W_q 是查詢投影矩陣。對(duì)于所有之前的步驟和當(dāng)前步驟 i ≤ t,計(jì)算時(shí)間步 i 的鍵與時(shí)間步 t 的查詢匹配的概率:

圖片

需要注意的是,這個(gè)查詢概率使用了sigmoid激活函數(shù),所以沒(méi)有歸一化。接下來(lái)通過(guò)stick-breaking過(guò)程來(lái)對(duì)查詢概率進(jìn)去歸一化:

圖片

這樣,注意力就會(huì)自動(dòng)分配給離t時(shí)刻最近,且具有較大查詢概率的時(shí)刻。使得自注意力機(jī)制在沒(méi)有額外的位置信息的情況下,也能對(duì)于相對(duì)位置進(jìn)行有效的建模。最終,自注意力模塊的輸出是由注意力權(quán)重對(duì)歷史的value向量進(jìn)行加和并且投影得到:

圖片

ModuleFormer中的模塊控制

預(yù)訓(xùn)練中的負(fù)載均衡

為了避免SMoE反復(fù)使用相同的模塊并浪費(fèi)其他模塊的額外容量,一般采用負(fù)載平衡損失函數(shù)來(lái)調(diào)節(jié)每個(gè)專家的使用頻率。與之前的SMoE模型 不同,團(tuán)隊(duì)希望最大化輸入字符和模塊之間的互信息(MI):

圖片

為了簡(jiǎn)化起見(jiàn),假設(shè)在批次X中的令牌分布是均勻的,因此p(x) = 1/X。在去除所有常數(shù)成分后,可以簡(jiǎn)化互信息損失(公式6)為p(m)的熵與p(m | x)的條件熵之間的差異。

圖片

在上述內(nèi)容中,p(m) = sum_x(g(m|x)p(x)),其中p(x)是批處理中每個(gè)字符的概率,H(m)是模塊分布的邊際熵,H(m | x)是模塊在給定輸入字符x的條件下的熵,|X |是輸入字符的數(shù)量。對(duì)于長(zhǎng)度為T的batch大小為B的小批量,字符的數(shù)量是|X | = BT,字符的概率是p(x) = 1/|X |。

直觀地說(shuō),互信息損失最大化了模塊的概率分布的邊際熵,并最小化了給定輸入x的模塊條件分布的商。它平衡了整個(gè)batch中每個(gè)專家的負(fù)載(最大化H(m)),同時(shí)也鼓勵(lì)每個(gè)輸入x將其路由概率集中在較少的模塊上(最小化H(m | x))。

微調(diào)中的負(fù)載集中

盡管團(tuán)隊(duì)希望在預(yù)訓(xùn)練期間最大限度地利用每個(gè)專家的能力,但在微調(diào)期間希望將少量的模塊專注于下游任務(wù)。這樣可以移除未使用的模塊并減少微調(diào)后模型的參數(shù)數(shù)量。為了將負(fù)載集中在較少的模塊上,團(tuán)隊(duì)引入了一個(gè)新的負(fù)載集中損失函數(shù)來(lái)最小化模塊的邊際熵:

圖片

這樣可以鼓勵(lì)模型使用更少的模塊來(lái)處理下游任務(wù)。在微調(diào)后,可以計(jì)算在訓(xùn)練或驗(yàn)證集上使用的模塊頻率f_m。f_m代表了模塊m對(duì)于這個(gè)任務(wù)的重要性,可以通過(guò)移除f_m小于某個(gè)特定閾值的專家來(lái)輕松實(shí)現(xiàn)模型剪枝。

用新的模塊來(lái)學(xué)習(xí)新的知識(shí)

對(duì)于模塊化模型來(lái)說(shuō),插入新模塊是一種直接且參數(shù)高效的方法,可以在不對(duì)整個(gè)模型進(jìn)行微調(diào)的情況下學(xué)習(xí)新知識(shí)。當(dāng)向每一層插入N_new個(gè)隨機(jī)初始化的模塊時(shí),還需要擴(kuò)展路由器(方程2中的A)中的模塊嵌入層A,使其包含一個(gè)形狀為(N_new,D_rtr)的新矩陣A’。因此,

新的路由函數(shù)可以寫成:

圖片

由于在微調(diào)期間其他的模塊參數(shù)被凍結(jié),因此使用新模塊進(jìn)行持續(xù)學(xué)習(xí)可以在很大程度上避免災(zāi)難性遺忘問(wèn)題。

然而,災(zāi)難性遺忘仍然可能影響路由函數(shù)。當(dāng)新模塊在一個(gè)新領(lǐng)域進(jìn)行訓(xùn)練時(shí),如果路由函數(shù)錯(cuò)誤地將來(lái)自舊領(lǐng)域的輸入路由到新專家,模型可能會(huì)遭受災(zāi)難性遺忘。

為了避免這種情況,團(tuán)隊(duì)對(duì)路由函數(shù)進(jìn)行了正則化以避免災(zāi)難性遺忘,并提出了兩種訓(xùn)練策略:

1)全面微調(diào)路由,公式9中A和B使用預(yù)訓(xùn)練參數(shù)進(jìn)行初始化,而A’則是隨機(jī)初始化的。這個(gè)策略是為了訓(xùn)練數(shù)據(jù)中同時(shí)包含新舊數(shù)據(jù)的情況設(shè)計(jì)。

2)只訓(xùn)練A’,這個(gè)策略是為了連續(xù)學(xué)習(xí)(lifelong learning)的情況而設(shè)計(jì)的,不使用以前訓(xùn)練過(guò)的數(shù)據(jù)。由于這種情況可能導(dǎo)致新的模塊使用頻率過(guò)高,從而帶來(lái)災(zāi)難性遺忘。團(tuán)隊(duì)引入了正則項(xiàng)來(lái)限制A’的范數(shù):

圖片

與被指出存在缺陷的傳統(tǒng)連續(xù)學(xué)習(xí)正則化方法(如衰減或L2損失)不同,路由正則化不限制專家的能力,而只限制對(duì)新專家的使用趨勢(shì)。

評(píng)估

基于ModuleFormer,研究者在Pile數(shù)據(jù)集上預(yù)訓(xùn)練了三個(gè)不同體積和計(jì)算量的ModuleFormer Language Model(MoLM)語(yǔ)言模型:

圖片

基礎(chǔ)性能評(píng)估

團(tuán)隊(duì)使用Language Model Evaluation Harness來(lái)評(píng)估零樣本、少樣本和語(yǔ)言建模任務(wù)中的語(yǔ)言模型。

對(duì)于零樣本和少樣本任務(wù),目標(biāo)是在給定上下文的基礎(chǔ)上從一組給定選項(xiàng)中選擇最合適的完成部分。最終選擇在給定上下文下具有最高可能性的完成部分。

對(duì)于語(yǔ)言建模,在Wikitext數(shù)據(jù)集上進(jìn)行測(cè)試。目標(biāo)是最小化下一個(gè)標(biāo)記預(yù)測(cè)的困惑度。

對(duì)于代碼生成,在HumanEval數(shù)據(jù)集上評(píng)估模型。HumanEval包含164個(gè)手寫的Python編程問(wèn)題。模型需要根據(jù)任務(wù)描述提示完成一個(gè)函數(shù),以便能夠通過(guò)所有提供的測(cè)試案例。

圖片

表2和表3顯示了MoLM和基準(zhǔn)語(yǔ)言模型在常識(shí)推理、閉卷問(wèn)答和代碼生成基準(zhǔn)上的性能。

總體而言,MoLM-4B-K2模型的性能與大約13億參數(shù)的稠密模型相當(dāng),MoLM-4B-K4和MoLM-8B-K2模型的性能與大約27億參數(shù)的稠密模型相當(dāng)。

由于其稀疏計(jì)算結(jié)構(gòu),MoLM處理每個(gè)字符的激活參數(shù)僅(等同于計(jì)算量)相當(dāng)于同等性能稠密模型的約25%。因此,它減少了50%的延遲,同時(shí)具有較低的內(nèi)存使用峰值,并在GPU內(nèi)存完全占用時(shí)將吞吐量提高了2倍。

通過(guò)增加模塊學(xué)習(xí)新語(yǔ)言

在本節(jié)中,我們測(cè)試了模型學(xué)習(xí)新語(yǔ)言的能力。主要研究?jī)煞N實(shí)驗(yàn)設(shè)置:連續(xù)聯(lián)合預(yù)訓(xùn)練(continual joint pre-training)和連續(xù)終身預(yù)訓(xùn)練(continual lifelong pre-training)。

它們的區(qū)別在于是否有英文文本的存在。對(duì)于這兩種設(shè)置,我們通過(guò)在CC-100語(yǔ)料庫(kù)上進(jìn)行語(yǔ)言模型任務(wù),不斷地對(duì)ModuleFormer和GPT-Neo進(jìn)行預(yù)訓(xùn)練。為了評(píng)估質(zhì)量,我們采用了由XGLM和mGPT引入的0-shot方法的mLAMA基準(zhǔn)測(cè)試。

圖片

持續(xù)聯(lián)合預(yù)訓(xùn)練:在這部分中,我們對(duì)聯(lián)合訓(xùn)練的模型進(jìn)行持續(xù)預(yù)訓(xùn)練。具體而言,我們混合了英語(yǔ)和一種新語(yǔ)言來(lái)構(gòu)建一個(gè)新的訓(xùn)練語(yǔ)料庫(kù),并保持嵌入層可訓(xùn)練。聯(lián)合訓(xùn)練[Caruana, 1997]是一種眾所周知的多任務(wù)學(xué)習(xí)方法,展示了對(duì)舊任務(wù)和新任務(wù)的熟練掌握。然而,它經(jīng)常在不同任務(wù)之間產(chǎn)生負(fù)面干擾。

表4顯示了持續(xù)訓(xùn)練模型獲得的結(jié)果。表格揭示了以下發(fā)現(xiàn):

1)我們觀察到稀疏模型在Fully Tuned的情況下經(jīng)歷較少干擾,最終得到了最好的的性能;
2)ModuleFormer通過(guò)增加模塊(Insert New Expert)的能力,比之前的LoRA方法展示出了更好的少量參數(shù)(Parameter Efficient)調(diào)優(yōu)的能力。這些結(jié)果表明,稀疏架構(gòu)帶來(lái)了更強(qiáng)的抗遺忘能力。

持續(xù)終身預(yù)訓(xùn)練:對(duì)于這個(gè)實(shí)驗(yàn)設(shè)定,模型僅在新語(yǔ)言文本上進(jìn)行訓(xùn)練。Abraham和Robins [2005] 提出了穩(wěn)定性-可塑性困境,這解釋了模型面臨的一個(gè)困難挑戰(zhàn):
1)模型應(yīng)具有較高的可塑性以學(xué)習(xí)新語(yǔ)言,
2)模型必須具有出色的穩(wěn)定性,考慮到在眾多的訓(xùn)練迭代中不會(huì)接觸到任何英語(yǔ)標(biāo)記。

表5顯示了LoRA基準(zhǔn)和我們的方法在不同的路由正則化損失權(quán)重下的結(jié)果。我們的ModuleFormer借助路由正則化損失表現(xiàn)出了強(qiáng)大的平衡穩(wěn)定性和可塑性的能力。

當(dāng)我們通過(guò)增加損失權(quán)重來(lái)限制新專家的使用時(shí),模型獲得了穩(wěn)定性,但可塑性下降。相比之下,使用LoRA對(duì)GPT-Neo進(jìn)行微調(diào)在穩(wěn)定性和可塑性方面都落后。

相比于1.33億可訓(xùn)練參數(shù)的高秩LoRA,低秩LoRA(減少訓(xùn)練參數(shù)到2400萬(wàn))和基本正則化都無(wú)法改善穩(wěn)定性。

微調(diào)和壓縮模型

在本節(jié)中,我們展示了ModuleFormer中的模塊可以被快速移除,以創(chuàng)建一個(gè)在尺寸上更小但性能不受損的任務(wù)專用模型。

我們首先從GitHub-code-clean數(shù)據(jù)集中創(chuàng)建了一個(gè)包含150億個(gè)字符的子集,該子集只包含Python代碼。然后,我們使用負(fù)載集中損失函數(shù)(權(quán)重為0.001)對(duì)MoLM-4B-K2模型在該數(shù)據(jù)集上進(jìn)行精調(diào)。

在精調(diào)之后,我們?cè)趶木{(diào)數(shù)據(jù)集中隨機(jī)抽樣的小型評(píng)估集上,計(jì)算每個(gè)專家的激活頻率,然后通過(guò)將每層除以層內(nèi)最大頻率來(lái)進(jìn)行歸一化。之后,我們?cè)O(shè)定一個(gè)閾值τ,并修剪了所有歸一化頻率低于該閾值的模塊。

圖片

我們?cè)贖umanEval數(shù)據(jù)集上測(cè)試了我們修剪后的MoLM-4B-K2模型。

圖2a說(shuō)明了pass@k指標(biāo)與剩余參數(shù)比例之間的相關(guān)性。圖2b展示了剩余參數(shù)比例與閾值之間的關(guān)聯(lián)。我們觀察到:

1)修剪不必要的模塊對(duì)結(jié)果影響不大。我們可以修剪40%至50%的參數(shù)而不犧牲性能。相反,適當(dāng)?shù)男藜簦?3%)使精調(diào)后的模型在任務(wù)上表現(xiàn)更好。

2)模塊分布存在顯著差異,大約有一半的模塊的激活頻率低于最常使用的專家的0.3%。這個(gè)結(jié)果顯示了負(fù)載集中損失函數(shù)的有效性。

總結(jié)

在這篇論文中,我們提出了一種新的模塊化架構(gòu)ModuleFormer,以及與之相關(guān)的模塊操作方法。

ModuleFormer包括幾個(gè)新組件:新的Stickbreaking注意力機(jī)制、新的互信息負(fù)載平衡損失函數(shù)用于預(yù)訓(xùn)練,以及新的負(fù)載集中損失函數(shù)用于微調(diào)。

基于ModuleFormer,我們預(yù)訓(xùn)練了一個(gè)新的語(yǔ)言模型MoLM。我們的實(shí)驗(yàn)結(jié)果顯示了MoLM的相對(duì)于稠密LLM展現(xiàn)出了一些新的能力:

1)它在更低的延遲(50%)和更小的內(nèi)存占用下實(shí)現(xiàn)了與密集LLM相同的性能;從而提高了吞吐量超過(guò)2倍;

2)在對(duì)整個(gè)模型進(jìn)行微調(diào)以適應(yīng)新領(lǐng)域后,它對(duì)災(zāi)難性遺忘的魯棒性較強(qiáng),并且也可以輕松擴(kuò)展以學(xué)習(xí)新的語(yǔ)言和知識(shí);

3)它可以在下游任務(wù)上進(jìn)行微調(diào),以使一部分模塊專注于任務(wù),并且未被任務(wù)使用的模塊可以被修剪而不影響性能。

論文地址:https://arxiv.org/abs/2306.04640

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡(luò)

2023-05-08 07:20:22

Doris分析型數(shù)據(jù)庫(kù)

2011-04-18 09:35:23

Windows 8

2021-06-11 21:46:31

RocketMQ數(shù)據(jù)JSON

2025-02-24 14:31:36

2009-12-02 11:03:29

AMD

2021-03-16 15:49:30

架構(gòu)運(yùn)維技術(shù)

2015-04-13 10:12:08

Windows容器技術(shù)Nano Server

2025-04-15 00:50:00

字節(jié)跳動(dòng)豆包大模型

2015-09-10 11:10:37

模塊化機(jī)房節(jié)能

2015-07-17 18:45:59

拆機(jī)

2014-05-29 09:34:25

2024-04-25 17:07:33

無(wú)源光網(wǎng)絡(luò)PON接入網(wǎng)技術(shù)

2019-05-13 08:51:53

總監(jiān)技術(shù)CTO

2019-08-28 16:18:39

JavaScriptJS前端

2019-05-06 10:51:49

總監(jiān)技術(shù)場(chǎng)景

2025-11-13 15:29:48

Nature模型AI

2025-03-12 14:40:53

2017-11-10 08:35:06

存儲(chǔ)FCoE網(wǎng)絡(luò)

2013-06-26 09:42:25

技術(shù)服務(wù)器內(nèi)存虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

在线观看国产精品入口| 日韩美女在线| 久久久久久久网| 国产成人精品久久二区二区| 99精品欧美一区二区| 国产精品1区| 岛国av一区二区在线在线观看| 亚洲国产精品一区在线观看不卡| 国产一区二区在线视频聊天| 亚洲国产电影| 日韩中文字在线| 国产麻豆剧传媒精品国产av| 欧洲成人一区| 亚洲一卡二卡三卡四卡五卡| 视频一区二区在线| 丰满熟女一区二区三区| 日本怡春院一区二区| 久久久精品欧美| 国产男男chinese网站| 国产精品视频一区视频二区 | 精品婷婷色一区二区三区蜜桃| 久久人人爽人人爽人人片av免费| 欧美日韩三级电影在线| 在线观看国产欧美| 成年人的黄色片| 国产精品777777在线播放| 欧美日韩在线另类| 日韩成人手机在线| 免费黄色在线观看| 久久丝袜美腿综合| 国产美女在线精品免费观看| 97在线公开视频| 首页欧美精品中文字幕| 97久久超碰福利国产精品…| 免费成年人视频在线观看| 精品免费在线| 亚洲欧美国产精品久久久久久久| 国产a级片视频| 国产麻豆一区二区三区| 欧美色图在线观看| 国产精品免费成人| 97人人爽人人澡人人精品| 亚洲人成在线观看一区二区| 精品爽片免费看久久| 成人精品aaaa网站| 国产99免费视频| 亚洲一区区二区| 欧美激情视频播放| 青娱乐免费在线视频| 91精品一区国产高清在线gif | 6080午夜不卡| 国产小视频精品| 78精品国产综合久久香蕉| 精品久久久久久久久国产字幕 | 欧美bbbxxxxx| 一区二区久久久| 国产91视频一区| 日本高清成人vr专区| 亚洲另类色综合网站| 亚洲成年人专区| 亚洲综合影视| 亚洲一区二区三区在线播放| 国产成人永久免费视频| 欧美aaa免费| 精品久久久久久中文字幕大豆网| 久久这里只有精品23| 操人在线观看| 色综合久久中文综合久久97| 久久久久久久久久久久久国产精品 | 一二三区免费视频| 日韩成人dvd| 国产精品日韩欧美| 国产精品视频在线观看免费| 国产乱国产乱300精品| 超碰在线97av| 涩涩视频在线观看免费| 国产午夜精品福利| 中文字幕日韩一区二区三区 | 九九久久婷婷| 中文字幕无线精品亚洲乱码一区| 免费黄色国产视频| 国产精品vip| 91国在线精品国内播放| 无码人妻丰满熟妇奶水区码| 蜜臀a∨国产成人精品| 成人在线观看视频网站| www.com欧美| 91蜜桃免费观看视频| 亚洲精品无人区| 97超碰资源站在线观看| 精品国产999| 可以看污的网站| 国产 日韩 欧美 综合 一区| 亚洲成人av在线| 国产91丝袜美女在线播放| 天天影视天天精品| 羞羞色国产精品| 国产精品久久久久久在线| 大白屁股一区二区视频| 欧美三级华人主播| а√天堂官网中文在线| 欧美日韩国产一中文字不卡 | 99久久这里有精品| 亚洲第一级黄色片| 999精品久久久| 国产免费成人| 97av自拍| 日本三级视频在线观看| 欧美日韩国产一区中文午夜| 亚洲图片 自拍偷拍| 日韩在线黄色| 九九热这里只有在线精品视| 欧产日产国产69| 粉嫩13p一区二区三区| 日韩精品在在线一区二区中文| bestiality新另类大全| 欧日韩精品视频| 182在线视频| 欧美一区久久| 国产美女扒开尿口久久久| 午夜在线观看视频18| 亚洲精品亚洲人成人网| 一区二区三区视频在线观看免费| 精品少妇一区| 欧美极品xxxx| 国产99视频在线| 中日韩免费视频中文字幕| 欧美一区二区中文字幕| 一区二区网站| 欧美成人精品h版在线观看| 日韩av免费播放| 久久天天做天天爱综合色| 免费观看国产精品视频| 日韩精品三级| 欧美xxxx18性欧美| 国产精品探花视频| 国产精品福利在线播放| 手机看片福利日韩| 亚洲人挤奶视频| 奇米4444一区二区三区 | 一卡二卡三卡视频| 综合视频一区| 久久久久久伊人| 亚洲福利在线观看视频| 一区二区三区四区不卡视频| 亚洲理论中文字幕| 91精品福利| 3d动漫精品啪啪一区二区三区免费 | yiren22亚洲综合| 在线电影av不卡网址| 瑟瑟视频在线免费观看| 国产欧美一区二区精品性| 国产精彩免费视频| 精品久久精品| 成人激情春色网| www久久日com| 精品福利一二区| 黄色片视频网站| 91小视频在线免费看| 九九九九免费视频| 国产日韩欧美一区二区三区| 国产成人精品日本亚洲专区61| 国产在线视频福利| 欧美性生活一区| 国产美女福利视频| 国产精品77777竹菊影视小说| 91免费国产精品| 久久电影在线| 欧美一区二区.| 国产高清免费在线播放| 欧美精品黑人性xxxx| 欧美国产日韩综合| 波多野结衣在线aⅴ中文字幕不卡| 精品无码一区二区三区在线| 最新亚洲精品| 成人网欧美在线视频| 51av在线| 亚洲最新视频在线| 99热这里只有精品66| 精品久久久久久久大神国产| 欧美日韩国产黄色| 成人一级视频在线观看| 欧美黑人又粗又大又爽免费| 欧美 日韩 国产 一区| 精品国产91亚洲一区二区三区www| 午夜精品成人av| 欧美美女18p| 亚洲 欧美 自拍偷拍| 欧美视频一区二区| 国产一二三四在线| 国产校园另类小说区| 日本成人在线免费| 日韩高清不卡一区二区三区| 无码人妻精品一区二区蜜桃百度| 伊人成综合网yiren22| 成人免费看片视频| 黄色成人免费网| 美女视频久久黄| 第三区美女视频在线| 欧美不卡激情三级在线观看| 久久精品视频2| 亚洲成人你懂的| 国产探花在线视频| 99久久99久久免费精品蜜臀| 午夜不卡福利视频| 久久精品二区三区| 屁屁影院ccyy国产第一页| 精品一区不卡| 精品综合久久| 警花av一区二区三区| 国产精品18久久久久久首页狼 | 人妻av一区二区| 精品亚洲免费视频| 大肉大捧一进一出好爽动态图| 欧美激情综合色综合啪啪| 亚洲va韩国va欧美va精四季| 99re6热只有精品免费观看| 国产精品中文字幕在线| 欧美性suv| 国内精品美女av在线播放| 老司机av在线免费看| 亚洲少妇中文在线| 天天综合网在线观看| 日韩欧美国产三级| 国产毛片在线视频| 欧美日韩国产小视频在线观看| 日韩黄色在线播放| 亚洲地区一二三色| 欧美色图亚洲天堂| 亚洲欧美日韩系列| 国产亚洲精品久久久久久豆腐| 久久精品日产第一区二区三区高清版| 88av在线播放| av一区二区三区| 韩国三级hd两男一女| 国产风韵犹存在线视精品| 在线播放免费视频| 激情综合网天天干| 国产一区二区在线观看免费视频| 爽好久久久欧美精品| 999香蕉视频| 久久久久久亚洲精品杨幂换脸| 久久久久久久久久久视频| 亚洲国产专区| 国产精品12345| 一本色道精品久久一区二区三区 | 日韩在线播放一区二区| 久久精品.com| 久久精品一区二区三区中文字幕| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 第一sis亚洲原创| 日韩精品资源| 午夜激情久久| 国产日韩欧美大片| 亚洲午夜精品久久久久久app| youjizz.com在线观看| 国产一区亚洲| 国产精品无码一区二区在线| 免费久久99精品国产自在现线| 不卡影院一区二区| 久久国内精品自在自线400部| 五月花丁香婷婷| 国产盗摄女厕一区二区三区| 亚洲精品久久一区二区三区777| 99精品黄色片免费大全| 久久久久久亚洲中文字幕无码| 欧美国产一区二区在线观看 | 亚洲国产精品一区二区www在线 | 欧美一区二区三区免费视频| www.xxxx国产| 日韩成人黄色av| 秋霞av在线| 久久精品国产96久久久香蕉| 天堂8中文在线| 欧美亚洲在线视频| 成人亚洲综合| 国产精品18毛片一区二区| 日韩在线麻豆| 正在播放91九色| 亚洲国产裸拍裸体视频在线观看乱了中文| 丰满爆乳一区二区三区| 蜜芽一区二区三区| 91精品人妻一区二区三区四区| 97se亚洲国产综合自在线观| 久久视频一区二区三区| 亚洲激情中文1区| 五月婷婷视频在线| 欧美丰满少妇xxxbbb| 少妇高潮一区二区三区99小说| 在线精品91av| 99爱在线视频| 成人免费激情视频| 私拍精品福利视频在线一区| 亚洲一卡二卡区| 亚洲三级观看| 91大神免费观看| 国产农村妇女毛片精品久久麻豆 | 午夜激情在线| 国产精品99导航| 91夜夜蜜桃臀一区二区三区| 欧美中文娱乐网| 亚洲高清不卡| 久国产精品视频| xfplay精品久久| 欧美黄色一区二区三区| 欧美私模裸体表演在线观看| 国产91麻豆视频| yellow中文字幕久久| 成人av观看| 国产乱码一区| 一区二区三区国产精华| 麻豆传传媒久久久爱| 成人手机在线视频| 男人av资源站| 欧美性三三影院| 欧美套图亚洲一区| 国语自产精品视频在线看抢先版图片| 日韩三级成人| 视频三区二区一区| 性一交一乱一区二区洋洋av| 国内精品免费视频| 亚洲人成网站影音先锋播放| 久久这里只有精品9| 亚洲精品一区二区在线| 69av成人| 国产综合第一页| 一区二区自拍| zjzjzjzjzj亚洲女人| 亚洲美女在线国产| 国产精品久久久久久久免费| 中文字幕精品在线| 欧美国产日韩电影| 日本公妇乱淫免费视频一区三区| 一本色道精品久久一区二区三区 | 欧美国产精品中文字幕| 黑人精品无码一区二区三区AV| 亚洲第一色在线| bbw在线视频| 精品国产电影| 国产九九精品| 久久美女免费视频| 色老汉一区二区三区| 黄视频在线观看免费| 国产精品1区2区在线观看| 狠狠做六月爱婷婷综合aⅴ| 精品国产成人av在线免| 久久综合久久综合九色| 日韩在线 中文字幕| 亚洲欧美中文日韩在线v日本| 毛片无码国产| 欧美日韩综合精品| 美女视频免费一区| 一本色道久久88| 日韩一区二区在线播放| 欧美极品少妇videossex| 国产一区二区三区黄| 亚洲主播在线| 欧美日韩国产黄色| 911精品国产一区二区在线| 菠萝蜜视频国产在线播放| 91色精品视频在线| 综合亚洲视频| 国产伦精品一区二区三区精品| 精品国产91久久久久久老师| 国外av在线| 成人av在线亚洲| 欧美视频网站| 丝袜美腿中文字幕| 欧美四级电影在线观看| 亚洲妇熟xxxx妇色黄| 精品国产一区二区三区麻豆小说 | 欧美视频自拍偷拍| 老司机99精品99| 韩国成人av| 日韩精品国产欧美| 三上悠亚作品在线观看| 精品国产乱码久久久久久久久| 毛片无码国产| 蜜臀av性久久久久蜜臀av| 不卡av在线网| 一区二区www| 久久久噜噜噜久久久| 国产精品视频一区二区三区四蜜臂| 五月天婷婷影视| 五月婷婷激情综合| 在线免费黄色| 国产专区一区二区三区| 另类成人小视频在线| 国产一级av毛片| 中文字幕日韩av电影| 91成人在线精品视频| 国产一区视频免费观看| 亚洲卡通动漫在线| 欧美日本网站| 亚洲最大激情中文字幕| 美女被久久久| 精品无码免费视频| 色先锋资源久久综合5566| 啪啪激情综合网| 国内av免费观看|