精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Jamba-1.5：大規(guī)模混合Transformer-Mamba模型

發(fā)布于 2024-8-27 13:30

瀏覽

0收藏

一、結(jié)論寫在前面

論文標題：Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

論文鏈接：https://arxiv.org/pdf/2408.12570

模型：https://huggingface.co/ai21labs

論文介紹了Jamba-1.5，基于Jamba架構(gòu)的新型指令調(diào)優(yōu)大型語言模型。Jamba是一種混合Transformer-Mamba專家混合架構(gòu)，能夠在不同上下文長度下提供高吞吐量和低內(nèi)存使用，同時保持與Transformer模型相同或更好的質(zhì)量。

論文發(fā)布了兩種模型尺寸：Jamba-1.5-Large，具有940億活躍參數(shù)，以及Jamba-1.5-Mini，具有120億活躍參數(shù)。這兩種模型都針對多種對話和指令遵循能力進行了微調(diào)，并且具有256Ktoken的有效上下文長度，是開放權(quán)重模型中最大的。

為了支持成本效益高的推理，論文引入了ExpertsInt8，一種新穎的量化技術(shù)，允許在處理256K token上下文時，將Jamba-1.5-Large適配到具有8張80GB GPU的機器上，而不損失質(zhì)量。在學術(shù)和聊天機器人基準測試中評估時，Jamba模型取得了優(yōu)異的成績，同時提供了高吞吐量，并在長上下文基準測試中超越了其他開放權(quán)重模型。

二、論文的簡單介紹

2.1 論文的背景?

論文介紹了Jamba-1.5，兩個基于論文的Jamba架構(gòu)[的新型大語言模型，可供公眾使用。Jamba-1.5-Mini是論文早期Jamba版本的更新和指令調(diào)優(yōu)版本。與其較小的同類產(chǎn)品一樣，Jamba-1.5-Large是一種混合架構(gòu)，結(jié)合了Transformer和Mamba層，以及專家混合(MoE)模塊。

自Jamba推出以來，類似的努力已經(jīng)證實了在高達8B參數(shù)規(guī)模上結(jié)合Transformer和狀態(tài)空間模型的優(yōu)勢。Jamba-1.5-Large在更大規(guī)模上展示了這種架構(gòu)的優(yōu)勢。它具有94B活躍參數(shù)，總共398B參數(shù)。即使在這個大尺寸下，由于Jamba架構(gòu)的效率以及論文開發(fā)的一種新穎量化技術(shù)，該模型可以在處理256Ktoken上下文時適配到具有8張80GB GPU的單臺機器上。

Jamba-1.5-Mini和Jamba-1.5-Large均為經(jīng)過指令微調(diào)的模型，通過Post-training賦予了多種能力。論文在廣泛的基準測試中評估發(fā)現(xiàn)，它們在性能上與同尺寸模型相當，同時得益于Jamba架構(gòu)的高效性。特別是，Jamba-1.5模型在長上下文評估中表現(xiàn)突出，使其成為唯一在RULER

基準測試中有效長度達到256K的模型，同時實現(xiàn)了KV緩存內(nèi)存減少10倍以及卓越的吞吐量和延遲。

這些模型已公開可用：

Jamba-1.5-Mini: https://huggingface.co/ai21labs/AI21-Jamba-1.5-Mini

Jamba-1.5-Large: https://huggingface.co/ai21labs/AI21-Jamba-1.5-Large

2.2 模型架構(gòu)

Jamba-1.5-Large基于Jamba ，這是一種混合解碼器架構(gòu)，融合了Transformer層與Mamba層（一種狀態(tài)空間模型（state-space model，SSM）），并附加了混合專家（MoE）模塊。詳見 [24] 對該架構(gòu)的詳細描述。

在開發(fā)Jamba [24] 的過程中，論文發(fā)現(xiàn)Transformer、Mamba和MoE元素的結(jié)合有助于平衡吞吐量、內(nèi)存使用和質(zhì)量的需求。Jamba-1.5-Large在大規(guī)模上展現(xiàn)了這種靈活性。

Jamba-1.5-Large 遵循相同的 Jamba 結(jié)構(gòu)，但容量更大。它擁有 94B 活躍參數(shù)和 398B 總參數(shù)。它包含 9 個塊，每個塊具有以下規(guī)格：

?l= 8每個block包含 8 層。

?a : m=1 : 7注意力層與 Mamba 層的比例。在論文的 Jamba 研究中，這一比例被發(fā)現(xiàn)是最佳的 [ 2 4 ]，后續(xù)工作 [6, 37] 也證實了類似比例的成功.

?每隔 e=2 層使用 MoE 替代單一 MLP。共有 n=1 6 個專家，每個token選擇前 K=2 個。

?隱藏狀態(tài)維度為 8192。

?注意力查詢頭數(shù)為 64，KV 頭數(shù)為 8。

表 1 將 Jamba-1.5 模型與公開可用的類似尺寸模型進行了比較。Jamba-1.5-Mini 的活躍參數(shù)數(shù)量與 Mixtral 8x7B 相近，而 Jamba-1.5-Large 的活躍參數(shù)數(shù)量介于 LLaMA-3.1-70B 和 Mistral-Large-2 之間。同時，論文的兩個 Jamba 模型在 KV 緩存內(nèi)存使用（256K token）方面遠小于所有其他模型，相較于各自的對應模型，大約減少了近一個數(shù)量級的內(nèi)存使用。

通過這些設(shè)置以及論文的專用量化（第 3.1 節(jié)），Jamba-1.5-Large 可以在單臺配備 8 塊 80GB GPU 的機器上提供服務，上下文長度可達 256K token。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

表 1：Jamba-1.5-Mini、Jamba-1.5-Large 與近期開放模型在總可用參數(shù)、活躍參數(shù)及長上下文 KV 緩存內(nèi)存方面的比較。Jamba-1.5-Mini 和 Jamba-1.5-Large 在 KV 緩存內(nèi)存需求上提供了顯著的減少。

對于這次發(fā)布，論文還嘗試了Mamba-2 [6]，這是Mamba的一個更快且改進的版本，據(jù)報道其性能優(yōu)于單獨的Mamba和Transformers。然而，如圖1所示，論文發(fā)現(xiàn)，在混合架構(gòu)中，Mamba-1-Attention組合的性能優(yōu)于Mamba-2-Attention，因此論文在Jamba-1.5-Large中采用了Mamba-1。（論文還發(fā)現(xiàn)混合架構(gòu)的性能優(yōu)于純Mamba-2。）論文推測這是因為Mamba-2相對于Mamba-1的一些優(yōu)勢，特別是能夠使用更大的狀態(tài)大小，在論文將全注意力層交錯放置在Mamba層之間時，其重要性有所降低，因為這些全注意力層能夠從整個上下文中匯聚信息。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

圖1：Mamba-1、Mamba-2、Mamba-1-Attention和Mamba-2-Attention在訓練100B tokens模型上的比較。盡管Mamba-2在沒有注意力機制的情況下優(yōu)于Mamba-1，但混合的Mamba-1-Attention表現(xiàn)更佳。

2.3 服務考慮與改進

論文分享了一些見解和改進措施，以實現(xiàn)Jamba模型在大規(guī)模上的高效服務。

2.3.1 專家Int8量化

為了支持Jamba-1.5-Large的高效服務，論文開發(fā)了一種新的量化技術(shù)，論文稱之為ExpertsInt8。論文觀察到，超過85%的模型權(quán)重位于MoE層中，超過90%位于MoE或MLP層中。論文希望量化這些權(quán)重，同時仍然享受快速BF16內(nèi)核的好處。為此，論文將MoE和MLP權(quán)重量化為INT8，以INT8格式保存，并在實際計算前將其反量化回BF16。重要的是，反量化步驟直接在vLLM[18]的融合moe內(nèi)核內(nèi)部進行。這樣，反量化過程幾乎不增加額外開銷，甚至導致比BF16更低的延遲。論文已經(jīng)將修改后的融合moe內(nèi)核貢獻給了vLLM。

論文的ExpertsInt8方法具有多個優(yōu)點

?首先，它速度快；量化僅在模型加載時花費幾秒鐘。

?其次，與vLLM中的大多數(shù)其他技術(shù)不同，它不依賴于校準，校準可能需要數(shù)小時或數(shù)天，并且可能不穩(wěn)定。

?第三，論文仍然可以使用BF16來保存大型激活。

?第四，它可以在A100 GPU上使用，而FP8僅在H100上可用。

?最后，論文的量化在延遲上與FP8匹配，同時超越其他量化技術(shù)，且沒有質(zhì)量損失。

圖2比較了使用Jamba-1.5-Mini、Jamba-1.5-Large以及兩個Mixtral模型（8x78B和8x22B）的不同量化技術(shù)的延遲。在IH100 GPU上，ExpertsInt8與FP8的延遲相匹配。在A100上，由于FP8不可用，ExpertsInt8是一種有吸引力的技術(shù)，大大優(yōu)于GPTQ。結(jié)合上述ExpertsInt8的優(yōu)勢，這使得它成為服務大型MoE模型的有吸引力的量化技術(shù)。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

圖2：不同量化技術(shù)的比較，展示了在1024個token上下文和128個token解碼條件下的端到端延遲。ExpertsInt8與FP8表現(xiàn)相似，同時快速且易于應用，仍允許BF16激活，并且適用于A100 GPU，而FP8在這些GPU上不可用。

2.3.2 激活損失

在預訓練過程中，論文發(fā)現(xiàn)某些激活，即特定專家的輸出以及最后Mamba層的輸出，對于某些輸入token，其幅度逐漸增加，最終達到高達4 \times 10^9的值。盡管論文沒有發(fā)現(xiàn)這對預訓練本身造成傷害，預訓練是在BF16精度下進行的，但激活的幅度可能在推理過程中引起數(shù)值問題，因為某些量化庫僅支持FP16精度的激活，其最大范圍為64K。

為了緩解這些擔憂，論文增加了一個“激活損失”項，與前向傳播中激活的均方成正比，并有一個可配置的α因子，懲罰較大的激活值。通過實驗論文發(fā)現(xiàn)，即使\alpha值高達至少10^-3，這種輔助損失對訓練也沒有影響。對于Jamba-1.5-Large，論文使用了α=10^-5，這足以將激活值降低到可接受的范圍（最大2K-3K）。此外，添加這種輔助損失幾乎立即減少了激活值，使其僅在訓練結(jié)束時添加，而不影響訓練速度和質(zhì)量。

為了驗證這種方法，論文使用FP16激活對模型進行了全面評估，并獲得了與BF16評估相同的結(jié)果，沒有任何NaN/溢出。

2.4吞吐量和延遲分析

得益于混合Jamba架構(gòu)，論文的Jamba-1.5模型提供了出色的吞吐量和延遲。圖3和4分別展示了Jamba-1.5-Mini和Jamba-1.5-Large的情況。如圖所示，論文的模型在延遲和吞吐量方面遠優(yōu)于類似規(guī)模的模型。它們在長上下文中的優(yōu)勢尤為明顯，存在顯著差距。重要的是，Jamba-1.5-Large即使在長上下文中也能高效運行，而大型LLaMA3-405B在相同硬件上無法運行。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

圖3：Jamba-1.5-Mini與其他模型在延遲和吞吐量方面的比較。所有測量均在2個A100 80GB GPU上進行，批量大小為1，輸出長度為512個token。Jamba-1.5-Mini表現(xiàn)出更好的延遲，尤其是在大型上下文中，輸出token吞吐量僅略有下降。

Jamba-1.5：大規(guī)模混合Transformer-Mamba模型-AI.x社區(qū)

圖4：Jamba-1.5-Large與其他模型在延遲和吞吐量方面的比較。所有測量均在8塊A100 80GB GPU上進行，批量大小為1，輸出長度為512個token。Jamba-1.5-Large在大型上下文中表現(xiàn)出更好的延遲，輸出token吞吐量僅略有下降。LLaMA-3.1-405B的結(jié)果截斷至64K，因為該模型在8塊80GB GPU上無法適應超過100Ktoken的上下文長度。

2.5 訓練

2.5.1 訓練基礎(chǔ)設(shè)施和數(shù)據(jù)

Jamba-1.5-Large在NVIDIA H100 GPU上使用論文自有的專有框架進行訓練，該框架包括FSDP、張量并行、序列并行和專家并行。對于后者，論文采用了MegaBlocks

2.5.2訓練階段

該模型分三個階段進行訓練。在預訓練階段，首先在2024年3月更新的自有數(shù)據(jù)集上進行訓練。論文的預訓練數(shù)據(jù)集是公開可用的

網(wǎng)頁文檔、代碼、書籍和科學文章的混合體。

論文的預處理流程包括解析、質(zhì)量過濾和去重。為了充分利用公開可用數(shù)據(jù)，論文開發(fā)了自己的自有解析器，并使用它提取文本和格式。確切的數(shù)據(jù)混合是通過各種消融實驗確定的。這一階段包括多語言數(shù)據(jù)，重點是以下語言：

英語、西班牙語、法語、葡萄牙語、意大利語、荷蘭語、德語、阿拉伯語和希伯來語。然后，在中間訓練階段進行了一小段時間的高比例長文檔訓練，以強調(diào)其遠程能力。最后，模型進行了Post-training。

2.5.3 Post-training

論文的Post-training方法旨在同時實現(xiàn)兩個目標：(i) 賦予模型各種技能和對話能力；(ii) 保留預訓練尤其是中間訓練的長上下文能力。這兩個目標部分存在沖突，因為大多數(shù)可用的Post-training數(shù)據(jù)集由相對較短的示例組成。

鑒于這些考慮，論文的Post-training過程包括在高質(zhì)量對話數(shù)據(jù)、技能特定數(shù)據(jù)和長上下文數(shù)據(jù)上的監(jiān)督微調(diào)。混合這些不同類型的數(shù)據(jù)旨在保留長上下文能力并獲取所需技能。如以下評估所示，論文發(fā)現(xiàn)論文的模型在長上下文評估中表現(xiàn)非常出色。

在進行監(jiān)督微調(diào)時，論文大量使用合成數(shù)據(jù)，這在最近的基石模型中很常見，并且反映了論文構(gòu)建結(jié)構(gòu)化數(shù)據(jù)以構(gòu)建復合AI系統(tǒng)的方法。論文開發(fā)了多個不同的數(shù)據(jù)合成流程，針對不同的模型能力。所有流程都采用以下模式：（i）在目標分布中采樣或生成提示；（ii）從語言模型生成響應；（iii）根據(jù)自動驗證和評分對響應進行質(zhì)量過濾或排序；以及（iv）后期編輯以去除偽影并適應所需的格式。論文為構(gòu)成最終數(shù)據(jù)混合的不同數(shù)據(jù)管道使用不同的模型、提示、采樣、過濾和編輯方法。

論文根據(jù)一系列主要是內(nèi)部的自動指標選擇了最終的訓練配方（數(shù)據(jù)混合和超參數(shù)）。Jamba-1.5模型都使用相同的控制標記和格式模板進行微調(diào)，論文將其作為HlF兼容的標記器和聊天模板的一部分提供；詳見模型卡。

論文提供了幾個合成數(shù)據(jù)生成的顯著例子：

基于表格的問答。論文生成表格數(shù)據(jù)和伴隨的問答對，如論文在表格理解工作[20]中所展示的。然后，論文使用語言模型將表格轉(zhuǎn)換為自然語言段落。論文生成的訓練示例包括針對給定表格中特定行或列的文本的提取、聚合和歸因任務。

文檔問答。給定一個文檔，論文引導語言模型生成單段落和多段落的問題-答案對。有時，論文通過添加類似文本來嵌入這些示例于更長的上下文中，以鼓勵帶有歸屬的長上下文理解。

工具使用。論文以開源的Glaive函數(shù)調(diào)用數(shù)據(jù)集為起點，通過各種啟發(fā)式方法和輸出模式的驗證進行過濾。為了支持并行函數(shù)調(diào)用，論文首先為Glaive中的每個函數(shù)生成多個有效的參數(shù)分配。接著，論文從相同函數(shù)和不同函數(shù)中抽取這些有效參數(shù)分配的子集，以生成對應函數(shù)調(diào)用集合的用戶請求。最后，論文引導一個函數(shù)調(diào)用語言模型響應這些生成的用戶請求，并僅保留函數(shù)調(diào)用匹配原始參數(shù)分配的響應。

可引導性。論文定義了一組易于驗證的指令，并合成了包含通用文檔草擬任務及一個或多個約束條件的提示。論文從語言模型中生成這些提示的完成結(jié)果，并基于細粒度指令的驗證和通用獎勵模型進行拒絕采樣。為了支持系統(tǒng)消息中的指令，論文選擇了多個共享細粒度指令的此類提示。

2.5.4 一些觀察

論文分享了從Jamba-l.5開發(fā)過程中得出的一些觀察。盡管這些觀察并未完全深入探討，但論文希望它們能啟發(fā)社區(qū)進一步研究這些問題。

首先，盡管論文僅包含了一小部分非英語數(shù)據(jù)，且僅針對特定技能在微調(diào)階段進行了處理，但論文的Jamba-1.5模型在多種語言上表現(xiàn)相當出色。如前所述，論文在預訓練階段確實包含了多語言數(shù)據(jù)。因此，論文推測模型能夠在主要使用英語進行微調(diào)時利用預訓練階段學到的知識。

其次，論文高效的Jamba架構(gòu)降低了在長上下文上進行微調(diào)的成本，使得在給定預算下能夠進行更多實驗。因此，論文能夠在微調(diào)階段嘗試多種不同的訓練方案。

最后，盡管像PPO [33]或DPO [29]這樣的偏好調(diào)優(yōu)算法改進了模型輸出與人類意圖之間的一致性，但論文發(fā)現(xiàn)，精心生成的合成數(shù)據(jù)、數(shù)據(jù)過濾和監(jiān)督微調(diào)的組合對于獲得強大的微調(diào)模型至關(guān)重要。

2.6 評估

雖然論文認為基準測試僅部分相關(guān)于實際應用的成功和用戶滿意度，但論文仍報告了關(guān)鍵公共基準的結(jié)果。首先，論文報告了標準學術(shù)基準的結(jié)果。然后，論文在聊天機器人基準上評估模型。最后，論文對Jamba-1.5-Large進行了多項長上下文評估和多語言評估。

論文與近期同尺寸范圍內(nèi)的開放權(quán)重模型進行了比較：與Jamba-1.5-Large相比，有LLaMA-3.1 70B和Mistral-Large-2-123B；與Jamba-1.5-Mini相比，有LLaMA-3.1-8B和Gemma-2-9B。

2.6.1 學術(shù)基準

論文報告了一系列標準學術(shù)基準的結(jié)果：MMLU、MMLU-Pro、GPQA、ARC-Challence、BBII和HumanEval 。論文還評估了IFEval指令遵循數(shù)據(jù)集和BFCL v1函數(shù)調(diào)用數(shù)據(jù)集。最后，論文在RealToxicity和TruthfulQA上報告了安全評估結(jié)果。

表2將Jamba-1.5-Large與幾個公開可用且規(guī)模相當?shù)哪Ｐ瓦M行了比較。所有結(jié)果均來自官方來源或由論文評估，如表中所示。論文觀察到，Jamba-1.5模型在包括知識、推理、指令遵循和功能調(diào)用能力在內(nèi)的標準學術(shù)基準上，與近期公開可用的最先進模型表現(xiàn)相當。論文還觀察到與文獻中報告的安全指標相似。

重要的是，如上所述，Jamba-1.5模型在實現(xiàn)這些結(jié)果的同時，提供了更好的吞吐量和延遲。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

表2：Jamba-1.5模型在獲得與同等規(guī)模模型相似性能的同時，享受到了更好的吞吐量和延遲。

2.6.2 聊天機器人評估

論文評估了Jamba-1.5模型在兩個聊天機器人場景中的表現(xiàn)：Arena-Hard ，一組500個具有挑戰(zhàn)性的用戶查詢，使用GPT4-Turbo作為評判標準，以及WildBench，使用GPT4-Turbo作為評判標準并進行了長度偏差緩解。如表3所示，Jamba-1.5模型在這些評估中取得了優(yōu)異的結(jié)果，其中Jamba-1.5-Large超過了LLaMA-3.1 70B，但略遜于Mistral-Large-2 123B，后者擁有大約30%更多的活躍參數(shù)。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

表3：Jamba-1.5模型與類似大小模型在聊天機器人基準測試中的比較。Jamba-1.5模型在性能相似的情況下，具有更好的吞吐量和延遲。" 由論文進行的評估。

2.6.3 長上下文評估

發(fā)布的模型能夠處理長達256K個標記的上下文長度。在本節(jié)中，論文對其在測試其長上下文能力的合成和自然主義基準上進行了評估。

2.6.3.1 RULER

論文在RULER基準上進行了評估，這是一組13個合成任務，旨在評估語言模型的長上下文能力。RULER包括8種針在草堆中的檢索任務變體，包括多個‘needles’[2]。它還包括一個變量跟蹤任務，其中應返回一系列變量綁定，兩個聚合任務，其中一個需要返回最常見的單詞，以及兩個問答任務，其中從自然主義數(shù)據(jù)集[30, 41]中插入的段落來模擬長上下文。

結(jié)果展示在表4中。在所有公開和專有模型中，Jamba-1.5-Mini和Jamba-1.5-Large是唯一確認有效長度為256Ktoken的模型。Gemini-pro在原始RULER論文中報告了高達128K的良好結(jié)果。然而，盡管論文付出了很大努力，仍無法重現(xiàn)這些結(jié)果。論文檢查了Gemini-pro的生成內(nèi)容，發(fā)現(xiàn)該模型經(jīng)常無法回答或生成拒絕。由于官方RULER結(jié)果來自預覽版本，論文假設(shè)Gemini-pro自那時起經(jīng)歷了更新，這些更新?lián)p害了其在RULER上的性能。

Jamba-1.5：大規(guī)模混合Transformer-Mamba模型-AI.x社區(qū)

表4：Jamba-1.5模型與其他公開和專有模型在RULER基準上的比較。其他模型的結(jié)果來自RULER Github。bigstar 由論文進行的評估。Jamba-1.5模型是唯一確認有效長度為256Ktoken的模型。

2.6.3.2 Infinite-BENCH

接下來，論文在cOBENCH數(shù)據(jù)集上進行評估，該數(shù)據(jù)集旨在評估語言模型的長上下文能力，平均長度為100K個標記。論文重點關(guān)注理解長篇小說的兩個英語任務：問答（EN.QA）和多項選擇問答（EN.MC）。如表5所示，Jamba-1.5模型在這種情況下表現(xiàn)非常出色，優(yōu)于同樣大小的LLaMA-3.1和Mistral-Large-2模型。（由于Gemma-2 9B的上下文窗口較短，僅為8K，因此未報告其結(jié)果。）

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

表5：Jamba-1.5模型在長上下文評估中優(yōu)于同樣大小的LLaMA-3和Mistral-Large-2模型。T評估由論文進行。

2.6.4 多語言能力

論文對Jamba-1.5在非英語語言中的能力進行了基本評估。特別是，論文報告了通過LM Evaluation Harness 分發(fā)的多語言MMLU數(shù)據(jù)集上的結(jié)果。表6顯示了結(jié)果，其中Jamba-1.5-Mini與其比較點相比表現(xiàn)相似或更好。Jamba-1.5-Large略落后于其可比模型，但仍展現(xiàn)出良好的多語言能力。

Jamba-1.5：大規(guī)?；旌蟃ransformer-Mamba模型-AI.x社區(qū)

表6：Jamba-1.5與其他模型在多語言MMLU數(shù)據(jù)集上的比較。

2.7 對齊與安全考量

論文模型對齊的方法是通過在模型行為與客戶期望之間建立透明度來驅(qū)動的。論文的模型默認遵循基于論文參與行業(yè)標準機構(gòu)、智庫以及與客戶直接經(jīng)驗的商業(yè)行為準則。論文認為這是一種持續(xù)且不斷發(fā)展的合作關(guān)系。此外，企業(yè)有多種方式來控制模型行為，以反映其獨特的價值觀和文化，例如額外的培訓和微調(diào)、系統(tǒng)消息和提示工程?？傮w而言，論文的AI行為準則基于以下目標：

?使模型行為和輸出與公司價值觀和規(guī)范的商業(yè)禮儀相一致。

?明確聲明預期行為的條款，以便錯誤/漏洞易于識別。

?與客戶合作，并將行為映射到他們的最佳實踐。

?持續(xù)收集反饋，以監(jiān)控并積極改進行為。

根據(jù)論文在OECD

任務組中的角色，該任務組旨在為應用G7廣島人工智能系統(tǒng)開發(fā)組織行為準則開發(fā)一個監(jiān)控機制，論文將模型對齊工作與OECD基于價值觀的AI原則相結(jié)合：包容性增長、可持續(xù)發(fā)展與福祉；以人為本的價值和公平性；透明度和可解釋性；魯棒性、安全性和安全性；以及問責制。

對于前四個原則，論文詳細闡述了行為預期或準則，并提供了可用于訓練/對齊和測試合規(guī)性的示例。問責原則側(cè)重于Al21在承擔模型行為責任中的角色。論文認為，這種問責主要通過與客戶、監(jiān)管機構(gòu)和獨立第三方的透明度和接觸來體現(xiàn)。論文與經(jīng)合組織（OECD）、斯坦福大學的HELM [23]和FMTI [3]以及此類文件的接觸，展示了這一承諾，以及論文在FMTI中的高排名（截至2024年5月排名第二）。

論文創(chuàng)建了60個準則，這些準則與OECD原則相對應。這些準則被表述為論文的模型應避免的行為指令。完整列表將公開發(fā)布。

本文轉(zhuǎn)載自??AI帝國??，作者：無影寺 ????

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

比肩Transformer的Mamba在時間序列上有效嗎？

海因斯DK ? 9843瀏覽 ? 0回復
在12個視頻理解任務中，Mamba先打敗了Transformer

輕薄滴假象 ? 4537瀏覽 ? 0回復
比Transformer更快更省，Mamba終于卷到網(wǎng)絡領(lǐng)域了

arnoldzhw ? 9491瀏覽 ? 0回復
TerDiT：首次探索大規(guī)模DiT模型量化問題

angel ? 5175瀏覽 ? 0回復
【LLM】提升大規(guī)模并行訓練效率的方法

sbf_2000 ? 5886瀏覽 ? 0回復
剖析大規(guī)模 GPU 集群：針對 LLM 場景的挑戰(zhàn)和優(yōu)化

amei2000go ? 7768瀏覽 ? 0回復
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 5777瀏覽 ? 0回復
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡建設(shè)

amei2000go ? 7398瀏覽 ? 0回復
Jamba前生今世：1.5開源來襲

魯班模錘1 ? 3904瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練—張量并行

amei2000go ? 5281瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練系列——流水線并行

amei2000go ? 6163瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練系列—專家并行

amei2000go ? 1.6w瀏覽 ? 0回復
TerDiT：首次探索大規(guī)模DiT模型量化問題

angel ? 3940瀏覽 ? 0回復
蘋果發(fā)布高效雙EMA梯度優(yōu)化方法，適配Transformer、Mamba模型

Aceryt ? 3554瀏覽 ? 0回復
大規(guī)模相似性搜索：原理、技術(shù)與 Faiss 實踐

柏企閱文 ? 4426瀏覽 ? 0回復
在個人電腦上運行Llama 3 70B大規(guī)模模型指南

丟翅膀的魚 ? 8255瀏覽 ? 0回復
為什么大語言模型難以處理長上下文？從 Transformer 到 Mamba

Baihai_IDP ? 4730瀏覽 ? 0回復
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 4258瀏覽 ? 0回復
ARGUS：突破十億參數(shù)的大規(guī)模推薦系統(tǒng)Transformer框架

頓數(shù)AI ? 1679瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

The Station：AI驅(qū)動科學發(fā)現(xiàn)的開放世界環(huán)境 4天前發(fā)布
PAN：通用、可交互、長時程的世界模型 4天前發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現(xiàn)堪稱性價比之王！ 0回復

上一篇：簡潔思考：輸出長度對大型語言模型推理和成本的影響

下一篇：一起聊聊圖檢索增強生成

社區(qū)精華內(nèi)容

目錄

国产av一区二区三区| 毛片aaaaaa| 在线观看的黄色| 久久人人97超碰com| 国产精品久久久久久久久久尿| 黄色免费一级视频| 日本一区二区乱| 精品久久久久久亚洲国产300 | 黄色av网址在线播放| 浮生影视网在线观看免费| 黑人精品欧美一区二区蜜桃 | 青青草成人免费| 日韩aaa久久蜜桃av| 欧美人与性动xxxx| 国内精品在线观看视频| eeuss影院在线播放| 盗摄精品av一区二区三区| 热久久视久久精品18亚洲精品| 美女福利视频网| 日韩精品免费一区二区三区竹菊 | 日本国产在线观看| 美腿丝袜亚洲一区| 4438全国亚洲精品在线观看视频| 久久爱一区二区| 亚洲妇女av| 日韩欧美一级精品久久| 国产福利一区视频| 黄色激情在线播放| 一区二区久久久| 亚洲欧洲中文| 免费在线超碰| 成人ar影院免费观看视频| 91精品久久久久久久久青青| 中文字幕一区在线播放| 欧美三区不卡| 久久人体大胆视频| 先锋影音av在线| 天天躁日日躁成人字幕aⅴ| 欧美成人国产一区二区| 亚洲一二区在线观看| 日韩av一级| 色激情天天射综合网| 国产资源在线视频| 波多野结依一区| 亚洲精品国久久99热| 中文字幕一区二区三区在线乱码 | 可以免费观看av毛片| 第一福利在线视频| 亚洲在线视频一区| av电影一区二区三区| 福利视频在线播放| 国产日韩欧美a| 蜜桃视频在线观看成人| 无码精品一区二区三区在线 | 国产综合精品在线| 国产精选一区| 亚洲天堂男人天堂女人天堂| 国产ts丝袜人妖系列视频 | 亚洲精品福利在线| 精品人妻伦一二三区久| 成人av婷婷| 亚洲成年人在线播放| 香蕉久久久久久av成人| 成人av综合网| 亚洲乱码国产乱码精品精| 超碰97在线资源站| 神马日本精品| 亚洲人成电影网站色xx| 人人妻人人澡人人爽| 欧美日韩色图| 日韩在线观看免费高清完整版| 一级免费黄色录像| 亚洲视频在线免费| 久久久视频精品| 日韩精品久久久久久久酒店| 久久一区激情| 成人黄色av播放免费| www.黄色av| 99久久伊人精品| 日本精品一区二区三区视频| av在线二区| 一区二区三区中文在线| 妞干网在线观看视频| 亚洲精品福利电影| 欧美日韩视频一区二区| 色欲无码人妻久久精品| 国产主播性色av福利精品一区| 亚洲女人初尝黑人巨大| 波兰性xxxxx极品hd| 午夜久久美女| 国产激情久久久| 国产成人久久精品77777综合 | 日韩制服丝袜av| 成人黄色在线播放| 五月婷婷伊人网| 日本一区二区三区高清不卡| 欧美亚洲视频| 日本欧美日韩| 日韩欧美一级精品久久| 亚洲成人黄色av| 欧美1区3d| 琪琪第一精品导航| 国内毛片毛片毛片毛片| 国产午夜精品福利| 在线观看17c| 另类激情视频| 日韩亚洲欧美综合| 蜜乳av中文字幕| 欧美日韩一区二区三区四区在线观看 | 日韩一区二区免费在线观看| av直播在线观看| 欧美~级网站不卡| 国产精品老女人精品视频| 亚洲av无码片一区二区三区| 亚洲国产精品t66y| 91九色在线观看视频| 亚洲tv在线| 亚洲欧美日韩国产中文| 久久国产在线视频| 久久成人av少妇免费| 精品中文字幕人| 成年人网站在线| 欧美性感一类影片在线播放| 美女扒开腿免费视频| 99国产精品一区二区| 欧美中文字幕在线观看| 蜜桃91麻豆精品一二三区| 2021天堂中文幕一二区在线观| 自拍偷拍亚洲综合| 日韩av播放器| 欧美巨大xxxx| 国外成人在线直播| 精品久久久久久亚洲综合网站| 日本一区二区成人| 欧在线一二三四区| 亚州av一区| 午夜伦理精品一区| 欧美熟妇交换久久久久久分类| 亚洲免费在线播放| www,av在线| 91免费精品| 国产精品一区二区三区免费视频 | 六月丁香激情网| 日韩三级精品| 欧美日韩成人精品| 国产ts人妖调教重口男| 1区2区3区精品视频| 男人的天堂最新网址| 欧美电影免费| 成人a视频在线观看| 国产欧美黑人| 9191久久久久久久久久久| 久久成人小视频| 国内成人精品2018免费看| 亚洲最新免费视频| 国产精品一区二区精品视频观看| 色av吧综合网| 国产又爽又黄又嫩又猛又粗| 国产精品久久久久影院| 久久国产激情视频| 99久久夜色精品国产亚洲1000部| 国产欧洲精品视频| 美女隐私在线观看| 日韩写真欧美这视频| 欧美成人一二三区| 成人性生交大片免费看中文| 黄色一级在线视频| 经典一区二区| 国产精品自产拍高潮在线观看| 巨大荫蒂视频欧美大片| 日韩一区二区三区四区五区六区| 国产乱国产乱老熟300| 成人av中文字幕| 熟女性饥渴一区二区三区| 国产99精品| 91精品国产自产在线老师啪 | 久久av综合| 国产精品日韩欧美| 成年视频在线观看| 日韩国产欧美精品一区二区三区| 日日夜夜狠狠操| 自拍偷拍欧美激情| 加勒比精品视频| 麻豆免费精品视频| 97超碰国产精品| 欧美激情在线精品一区二区三区| 国产在线精品一区免费香蕉| 性xxxxfjsxxxxx欧美| 亚洲欧美国产另类| 一区二区久久精品66国产精品| 亚洲一区二区三区爽爽爽爽爽| 波多野结衣a v在线| 激情综合五月天| 香港三级韩国三级日本三级| 大片网站久久| 99久久精品无码一区二区毛片| 僵尸再翻生在线观看| 中文字幕精品久久久久| 日本精品久久久久久| 欧美性生活大片视频| 国产第一页在线播放| 国产欧美精品日韩区二区麻豆天美| 国内av免费观看| 久久久国产精品一区二区中文| 大桥未久一区二区三区| 亚洲瘦老头同性70tv| 亚洲一区二区三区久久| 性感美女一区二区在线观看| 欧美另类老女人| 99se视频在线观看| 亚洲黄色av女优在线观看| 国产精品久久影视| 欧美日韩午夜视频在线观看| 欧美三级在线免费观看| 中文字幕av资源一区| 国产精品无码一区二区三区免费| 韩国一区二区三区| 日韩欧美高清| 亚洲高清免费| 2021国产视频| 日韩精品四区| 欧美日韩三区四区| 国产图片一区| 国产精品高清一区二区三区| 久久婷婷五月综合色丁香| 国产91成人video| heyzo高清在线| 久久777国产线看观看精品| 午夜视频在线免费观看| 国产香蕉精品视频一区二区三区| 日本免费一区视频| 日韩欧美高清dvd碟片| 伊人网视频在线| 日本乱人伦一区| 毛片在线免费视频| 精品国产91久久久久久| 久青草免费视频| 一区二区三区日韩精品| 乱h高h女3p含苞待放| ...中文天堂在线一区| av免费播放网站| 国产日韩一级二级三级| 亚洲图片另类小说| 久久久久久久性| 非洲一级黄色片| 国产欧美综合色| 老司机精品免费视频| 国产精品天美传媒| 2017亚洲天堂| 亚洲欧美中日韩| 青青青在线观看视频| 隣の若妻さん波多野结衣| 欧美日韩视频在线第一区| 中文字字幕在线观看| 欧美唯美清纯偷拍| 97久久人国产精品婷婷 | 亚洲第一精品网站| 欧美成人免费网站| 好吊色一区二区三区| 亚洲缚视频在线观看| 无码精品视频一区二区三区| 亚洲精品中文字| 国产原创av在线| 综合网中文字幕| 国产激情在线视频| 久久久久国产精品免费| 欧美三级网站| 日本不卡高字幕在线2019| 浪潮色综合久久天堂| 国产精品手机播放| 国产一区精品二区| 国产精选在线观看91| 精品在线91| 在线观看成人av电影| 中文字幕一区二区三区久久网站| 欧美视频在线第一页| 在线亚洲伦理| 亚洲欧美激情网| 精品在线播放午夜| 制服丝袜av在线| 国产欧美日产一区| 黑人巨大精品一区二区在线| 性久久久久久久久| 中国精品一区二区| 精品久久一区二区三区| 欧美欧美欧美| 久久国产天堂福利天堂| 超碰激情在线| 国产日本欧美一区二区三区在线 | 在线能看的av网址| 国产精品亚洲激情| 国产色综合视频| 免费av一级片| 石原莉奈在线亚洲三区| 精品欧美一区免费观看α√| 日韩国产精品大片| 亚洲精品久久一区二区三区777| 久久综合网色—综合色88| wwwav国产| 色婷婷精品久久二区二区蜜臀av | 性色一区二区| 亚洲一二三不卡| 久久精品在这里| 永久看片925tv| 大荫蒂欧美视频另类xxxx| 中文字幕av网站| 亚洲精品国产成人| 中文字幕中文字幕在线十八区| 4k岛国日韩精品**专区| 国产精品亚洲综合在线观看| 日韩精品欧美一区二区三区| 亚洲激情午夜| 日本高清免费在线视频| 国产欧美一二三区| 久久黄色精品视频| 精品国精品国产| 黄色免费在线观看| 国产精品高潮呻吟久久av黑人| 国产精品对白| 无码人妻aⅴ一区二区三区日本| 丝袜美腿高跟呻吟高潮一区| 亚洲天堂2024| 亚洲精品国产a| 国产永久免费视频| 在线日韩日本国产亚洲| 综合日韩av| 久久精品国产精品国产精品污| 国内揄拍国内精品久久| 久久久精品视频国产| 国产精品高清亚洲| 波多野结衣视频网址| 精品偷拍各种wc美女嘘嘘| av男人的天堂在线观看| 福利精品视频| 国模大胆一区二区三区| 蜜桃视频无码区在线观看| 亚洲青青青在线视频| 91精品国产色综合久久不8| 中文字幕av一区二区三区谷原希美| 在线人成日本视频| 欧美一级爽aaaaa大片| 性8sex亚洲区入口| 久久精品—区二区三区舞蹈| 色老头久久综合| a中文在线播放| 国产精品啪视频| 99久久精品费精品国产风间由美| 五月天中文字幕在线| 中文字幕一区二区三| 国产精品久久久久久久久毛片| www.欧美精品一二三区| 国产精品亲子伦av一区二区三区| 午夜精品区一区二区三| 美女任你摸久久| 中文字幕无码日韩专区免费| 5月丁香婷婷综合| 日本中文字幕中出在线| 国产精品成人观看视频免费| 亚洲三级网站| 亚洲欧美色图视频| 在线免费不卡视频| av午夜在线| 91在线免费观看网站| 欧美日韩专区| 女同毛片一区二区三区| 欧洲色大大久久| 国产福利视频在线| 国产精品日韩一区二区三区| 午夜在线视频一区二区区别| 国产一二三四区在线| 日韩一区二区在线看| 久草在线资源福利站| 少妇免费毛片久久久久久久久| 精品一区二区三区不卡| 妺妺窝人体色www聚色窝仙踪| 日韩av一区二区在线| 精品无人乱码一区二区三区| mm131午夜| 久久久久亚洲综合| 国产毛片一区二区三区va在线| 久久久女女女女999久久| 国产真实有声精品录音| 在线观看av免费观看| 欧美日韩激情美女| 伊人免费在线| 国产91一区二区三区| 久久亚洲综合| 久久免费公开视频| 亚洲性夜色噜噜噜7777| 精品视频在线播放一区二区三区| 国产原创中文在线观看| 国产精品久久久久婷婷二区次| 亚洲国产精品一| 国产精品成熟老女人| 亚洲天堂黄色| 日本黄区免费视频观看| 亚洲成人精品久久久| 成人在线视频观看| 国产美女主播在线播放| **性色生活片久久毛片|