精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型服務(wù)的推理優(yōu)化探索

原創(chuàng) 精選
人工智能
大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。

開發(fā)并部署大模型應(yīng)用肯定要考慮它們的服務(wù)成本。然而,錢并不是唯一的考慮因素,如果不能解決模型性能方面的問題,即使有很大的預(yù)算,大模型服務(wù)仍會受到影響。本文嘗試討論將 LLM 推理服務(wù)更改為高吞吐量引擎的挑戰(zhàn)與應(yīng)對方法。

1. 大模型服務(wù)面臨的挑戰(zhàn)

大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。在預(yù)填充階段,當(dāng)你輸入提示詞(包含上下文、對話歷史、問題等信息)時(shí),模型需要一次性處理所有輸入的 token。隨后進(jìn)入解碼階段,模型開始逐個(gè)生成輸出 token,且每個(gè)新 token 的生成都嚴(yán)格依賴于之前生成的 token。可以這樣類比:預(yù)填充就像為一盤象棋游戲精心布局(耗時(shí)較長),而解碼則類似于后續(xù)一步接一步的落子(單步較快)。然而,現(xiàn)實(shí)并非如此輕松——部署大型模型遠(yuǎn)非易事,必須仔細(xì)考量其帶來的延遲問題。

1.1 數(shù)據(jù)稀疏性問題

在神經(jīng)網(wǎng)絡(luò)中,尤其是前饋網(wǎng)絡(luò)(FFN),許多神經(jīng)元的激活值為零。這種稀疏性導(dǎo)致矩陣乘法中存在大量零元素,從而浪費(fèi)了計(jì)算資源。如果我們能夠跳過這些零值,僅對非零元素進(jìn)行計(jì)算,將顯著提升推理效率。

更重要的是,在深度學(xué)習(xí)系統(tǒng)中,數(shù)據(jù)在 CPU 和 GPU 之間傳輸所消耗的時(shí)間往往遠(yuǎn)高于實(shí)際計(jì)算時(shí)間。此外,隨著模型規(guī)模的增長,一些包含數(shù)萬億參數(shù)的超大規(guī)模模型根本無法容納在單個(gè) GPU 中,使得稀疏性優(yōu)化變得尤為關(guān)鍵。

1.2 請求調(diào)度問題

大模型通常需要同時(shí)處理多個(gè)用戶請求。在這種多任務(wù)場景下,短小快速的請求(例如查詢天氣、時(shí)間或簡短答案)可能不得不排隊(duì)等待長時(shí)間請求完成。這導(dǎo)致整體平均響應(yīng)時(shí)間主要受制于等待時(shí)間,而非實(shí)際計(jì)算耗時(shí)。

即使你的模型計(jì)算速度非常快,也必須等待前面的請求執(zhí)行完畢才能開始處理下一個(gè)。因此,如何高效地調(diào)度和優(yōu)先處理不同類型請求,是提升服務(wù)吞吐量與用戶體驗(yàn)的關(guān)鍵挑戰(zhàn)。

1.3 順序解碼問題

當(dāng)前的語言模型生成機(jī)制限制了token之間的并行化能力。每個(gè)前向傳播只能生成一個(gè)新 token(或少量 token),這意味著長文本回復(fù)必須逐字逐句地生成。這也是為什么像 ChatGPT 這類模型在生成長文時(shí),通常采用“流式輸出”的方式呈現(xiàn)結(jié)果。

有趣的是,盡管流式輸出能帶來更即時(shí)的反饋體驗(yàn),但其本質(zhì)仍然是串行生成過程。因此,“先看到一部分”并不意味著更快完成整個(gè)生成任務(wù),反而揭示了當(dāng)前解碼機(jī)制在并行性上的瓶頸。

1.4 KV 緩存增長問題

注意力機(jī)制是 LLM 推理的核心環(huán)節(jié),尤其是在長序列中,計(jì)算所有 token 之間的相關(guān)性會帶來巨大的計(jì)算負(fù)擔(dān)。每當(dāng)模型生成一個(gè)新的 token,都需要重復(fù)計(jì)算之前所有 token 的注意力權(quán)重,造成大量冗余操作。

KV 緩存(Key-Value Cache)是一種有效的優(yōu)化策略,它通過緩存已生成 token 的中間狀態(tài),避免重復(fù)計(jì)算,從而加速推理過程。然而,隨著生成序列變長,KV 緩存占用的內(nèi)存也會持續(xù)增長,成為影響推理效率和部署成本的重要因素。

2. 推理優(yōu)化之KV Cache 管理

KV 緩存是 LLM 推理過程中占用內(nèi)存最多的部分之一。隨著上下文長度的增加,KV 緩存所需的存儲空間也隨之增長。例如,一個(gè)支持最大輸入長度為 2048 個(gè) token 的模型,需要預(yù)留 2048 個(gè)緩存插槽。如果用戶僅輸入了一個(gè)包含 7 個(gè) token 的提示詞,那么其余 2000 多個(gè)插槽雖然未被使用,卻依然被系統(tǒng)預(yù)留,造成內(nèi)部內(nèi)存碎片。

在每一步推理中,模型都會生成新的 KV 對,并在后續(xù) attention 計(jì)算中使用,因此必須將它們緩存起來。KV 緩存通常以連續(xù)的內(nèi)存塊或“頁”形式進(jìn)行分配。然而,當(dāng)某個(gè)序列生成完成后,其占用的內(nèi)存頁被釋放,但這些頁可能并不連續(xù)。這就導(dǎo)致了外部內(nèi)存碎片:大量小塊空閑內(nèi)存分散在內(nèi)存中,無法滿足后續(xù)請求所需的連續(xù)內(nèi)存空間。

為了解決這一問題,研究者借鑒操作系統(tǒng)的內(nèi)存管理機(jī)制,提出了頁面注意力機(jī)制(PagedAttention)。該機(jī)制將 KV 緩存組織成邏輯內(nèi)存塊,并通過頁表進(jìn)行管理,從而實(shí)現(xiàn)靈活的內(nèi)存映射和高效利用。其核心思想包括以下幾個(gè)關(guān)鍵方式:

  • 固定大小的內(nèi)存塊:頁面注意力機(jī)制采用固定大小的小型內(nèi)存單元(稱為“頁”)來存儲 KV 緩存,類似于操作系統(tǒng)中的分頁機(jī)制。
  • 共享內(nèi)存塊:這些內(nèi)存頁可以在多個(gè)請求之間共享,提高資源利用率。
  • 按需動態(tài)分配:內(nèi)存塊根據(jù)生成過程動態(tài)分配,無需預(yù)先估計(jì)最大序列長度,避免了不必要的內(nèi)存浪費(fèi)。

通過引入這種高效的內(nèi)存管理策略,頁面注意力機(jī)制顯著提升了推理時(shí)的內(nèi)存利用率和并發(fā)處理能力,是當(dāng)前大模型部署優(yōu)化的重要方向之一。

2.1 基于 Radix Tree 的 KV 緩存優(yōu)化

在計(jì)算機(jī)科學(xué)中,Radix Tree(也稱為緊湊前綴樹或壓縮 Trie 樹)是一種空間優(yōu)化的樹形數(shù)據(jù)結(jié)構(gòu)。它通過對具有相同前綴的節(jié)點(diǎn)進(jìn)行合并,減少了存儲開銷,從而提升了查找效率。

在大語言模型(LLM)推理中,基于 Radix Tree 的 KV 緩存技術(shù)被用于高效地重用多個(gè)推理請求之間的緩存數(shù)據(jù),尤其適用于多個(gè)請求共享相同輸入前綴的場景。通過將 KV 緩存組織為 Radix Tree 結(jié)構(gòu),系統(tǒng)可以快速檢索和復(fù)用已有的緩存內(nèi)容,并在不同請求之間實(shí)現(xiàn)靈活共享。

相比傳統(tǒng)的線性緩存管理方式,Radix Tree 在內(nèi)存利用和訪問效率上更具優(yōu)勢。其構(gòu)建成本約為 O(n log n),而在注意力計(jì)算中的額外開銷相對較小,約為 O(n2) 量級,這對于提升多請求并發(fā)處理能力具有重要意義。

2.2 多種注意力機(jī)制下的 KV 管理策略

多頭注意力機(jī)制(Multi-Head Attention)是 Transformer 模型的核心組成部分,也是當(dāng)前大多數(shù) LLM 的核心架構(gòu)。每個(gè)注意力頭從不同的角度理解文本內(nèi)容:有的關(guān)注主語與動詞的關(guān)系,有的聚焦詞匯本身,還有的分析句子結(jié)構(gòu)。這種多頭設(shè)計(jì)顯著增強(qiáng)了模型的理解能力。

然而,每個(gè)注意力頭都需要獨(dú)立維護(hù)一組 Key 和 Value 向量,導(dǎo)致 KV 緩存的內(nèi)存占用急劇上升。特別是在處理長文本或多任務(wù)并發(fā)時(shí),這些向量會占用大量顯存資源,成為性能瓶頸。

為了緩解這一問題,研究者提出了多種優(yōu)化方案:

  • 組查詢注意力(Grouped Query Attention, GQA):允許部分注意力頭共享相同的 Key 和 Value 向量,從而減少整體緩存需求。
  • 多查詢注意力(Multi-Query Attention, MQA):僅使用一組 Key 和 Value 向量供所有查詢頭共享,是目前最節(jié)省內(nèi)存和計(jì)算時(shí)間的方法之一。

此外,像 DeepSeek 這類開源模型進(jìn)一步引入了 Flash Multi-Latent Attention(Flash MLA) 技術(shù),在訓(xùn)練和推理階段實(shí)現(xiàn)了更高效的注意力計(jì)算。該方法通過低秩壓縮技術(shù),將 Key 和 Value 向量向下投影到一個(gè)維度更低的潛在空間,從而大幅減小緩存體積。在實(shí)際計(jì)算注意力時(shí)再進(jìn)行向上投影。

圖片圖片

更巧妙的是,該方法還將向上投影的權(quán)重矩陣與查詢矩陣進(jìn)行融合,從而加快注意力的計(jì)算速度,進(jìn)一步提升推理效率。

3. 推理優(yōu)化之 Query-sparsity attention

在 MIT 發(fā)表的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》中,研究者指出:Transformer 層中普遍存在高度稀疏性。這意味著,在實(shí)際推理過程中,并非網(wǎng)絡(luò)中的所有神經(jīng)元都會被激活。

基于這一觀察,研究人員提出了一種高效的模型推理方法——利用這種稀疏性進(jìn)行剪枝,從而顯著減少計(jì)算開銷。其背后的邏輯非常直觀:并不是每個(gè) token 都對上下文理解有貢獻(xiàn)

舉個(gè)簡單的例子:

我們輸入提示詞:“A is B, C is D. A is”,期望模型輸出下一個(gè)詞:“B”。在這個(gè)任務(wù)中,模型只需要關(guān)注最相關(guān)的幾個(gè) token 即可完成預(yù)測,而其余部分則可以忽略。這表明,模型的注意力機(jī)制具有明顯的查詢依賴性,即“查詢感知稀疏性(Query-Aware Sparsity)”。

基于這一洞察,QUEST 提出了一種高效策略:在注意力計(jì)算中,只選擇與當(dāng)前查詢最相關(guān)的 KV 緩存塊進(jìn)行處理。具體來說,該方法會在所有數(shù)據(jù)塊中找出前 k 個(gè)最關(guān)鍵的數(shù)據(jù)塊來進(jìn)行后續(xù)計(jì)算。

圖片圖片

以下是 QUEST 的核心流程:

  • 塊級特征提取對于每一個(gè) KV 數(shù)據(jù)塊,QUEST 首先提取其最小和最大 Key 值以及通道極值。
  • 查詢特征生成接著,根據(jù)當(dāng)前查詢向量,逐元素生成對應(yīng)的 max 和 min Key 值。
  • 快速篩選機(jī)制通過上述技巧,系統(tǒng)能夠快速評估哪些 KV 塊與當(dāng)前查詢最為相關(guān),從而避免大量無效計(jì)算。
  • Top-k 選擇最終,僅保留與查詢最相關(guān)的前 k 個(gè) KV 塊,用于后續(xù)注意力計(jì)算。

通過這一系列優(yōu)化,QUEST 顯著減少了注意力機(jī)制中的冗余計(jì)算,從而提升了長上下文場景下的推理效率。

當(dāng)然,一個(gè)關(guān)鍵問題是:如何選擇合適的 k 值?

k 是一個(gè)需要通過實(shí)驗(yàn)調(diào)優(yōu)的超參數(shù)。研究表明,當(dāng)設(shè)置 k = 4096 時(shí),模型性能幾乎接近完整計(jì)算的水平(約 100%),同時(shí)又能帶來顯著的效率提升。因此,這是一個(gè)兼顧準(zhǔn)確率與效率的推薦值。

4. 推理優(yōu)化之推測性解碼

推測性解碼(Speculative Decoding) 是加速大語言模型推理的重要技術(shù)之一。這一方法的重要性也得到了 Andrej Karpathy 的認(rèn)可,并在 2022 年由 Google 首次提出并應(yīng)用于實(shí)際系統(tǒng)中。

其核心思想非常直觀且巧妙:與其僅依賴一個(gè)龐大、準(zhǔn)確但緩慢的目標(biāo)模型逐 token 地生成結(jié)果,不如先使用一個(gè)輕量級、快速但相對不夠精準(zhǔn)的小模型(稱為“草稿模型”)來預(yù)測多個(gè)后續(xù) token。然后,再由大模型(即目標(biāo)模型)對這些預(yù)測進(jìn)行驗(yàn)證。

如果目標(biāo)模型認(rèn)同草稿模型的預(yù)測,則可以直接接受這些 token,從而大幅提升生成效率;如果不一致,則從分歧點(diǎn)開始重新生成。雖然這種機(jī)制存在一定的回退成本,但在多數(shù)情況下,草稿模型的預(yù)測是準(zhǔn)確的,因此整體上節(jié)省了大量計(jì)算資源。

草稿模型可以是一個(gè)小型神經(jīng)網(wǎng)絡(luò)模型,例如參數(shù)規(guī)模在 1B~3B 的模型,甚至也可以是基于統(tǒng)計(jì)的 N-gram 模型。而目標(biāo)模型則通常是擁有數(shù)十億甚至上萬億參數(shù)的大模型。

盡管使用兩個(gè)模型看似會增加內(nèi)存和計(jì)算開銷,但在實(shí)際應(yīng)用中,由于草稿模型的預(yù)測準(zhǔn)確率較高,尤其是對于常見詞匯(如“是的”、“這個(gè)”、“是”、“等等”)幾乎不會出錯,因此能顯著提升推理速度。

更重要的是,所有由草稿模型生成的 token 可以被目標(biāo)模型一次性并行驗(yàn)證,而不是傳統(tǒng)的逐 token 自回歸生成方式。這種方式大幅減少了生成延遲,為長文本輸出帶來了實(shí)質(zhì)性的性能提升。

5. 推理優(yōu)化之資源調(diào)度

在大模型推理中,調(diào)度(scheduling) 是一項(xiàng)關(guān)鍵挑戰(zhàn),其核心在于如何在有限的硬件資源(如 GPU、CPU 和硬盤)之間實(shí)現(xiàn)高效的負(fù)載平衡。一個(gè)優(yōu)秀的調(diào)度策略不僅能通過并行計(jì)算加速推理過程,還能讓擁有上百億參數(shù)的大模型(例如 100B 參數(shù)模型)在低配置設(shè)備(如搭載 T4 GPU 的 PC)上順利運(yùn)行。

要實(shí)現(xiàn)這一目標(biāo),通常依賴于兩個(gè)關(guān)鍵技術(shù)要素:

  • 智能地在 GPU、CPU 和硬盤之間加載和卸載模型權(quán)重
  • 高效管理計(jì)算單元之間的數(shù)據(jù) I/O 傳輸

為了解決這兩個(gè)問題,來自斯坦福大學(xué)、加州大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)的研究者提出了 FlexGen,這是一套具有代表性的系統(tǒng)級優(yōu)化方案,旨在提升大規(guī)模語言模型在受限硬件上的推理效率。

5.1 FlexGen 的核心機(jī)制

FlexGen 將每個(gè)需要處理的數(shù)據(jù)塊定義為“一批數(shù)據(jù)”,這些數(shù)據(jù)被依次加載到模型的不同層進(jìn)行計(jì)算。其中,列方向表示批處理維度,而行方向則對應(yīng)模型層數(shù)的順序處理

為了保證執(zhí)行效率和資源約束,F(xiàn)lexGen 定義了一條“有效路徑”——即遍歷所有數(shù)據(jù)塊的最優(yōu)執(zhí)行路徑,必須滿足以下條件:

  • 數(shù)據(jù)必須從左到右按順序執(zhí)行
  • 同一批次的所有數(shù)據(jù)必須位于同一設(shè)備上
  • 激活值必須按照正確的滑動窗口進(jìn)行處理
  • KV 緩存需保留至當(dāng)前批次完成
  • 在任意時(shí)刻,設(shè)備上存儲的張量總大小不能超過其內(nèi)存容量

假設(shè)我們有 N 個(gè) token,每個(gè) token 的數(shù)據(jù)將按照順序依次加載并計(jì)算。每層的權(quán)重僅在需要時(shí)加載,在計(jì)算完成后立即卸載。然而,這種頻繁的加載/卸載操作會帶來顯著的時(shí)間開銷——因?yàn)殡m然 GPU 的計(jì)算速度極快,但內(nèi)存?zhèn)鬏攨s相對緩慢。

5.2 FlexGen 的優(yōu)化策略

為了解決上述瓶頸,F(xiàn)lexGen 引入了靈活的執(zhí)行調(diào)度方式,例如通過調(diào)整掃描順序(從行到列、之字形塊調(diào)度等),從而避免不必要的 I/O 操作。它不僅能夠節(jié)省下一層模型權(quán)重的加載時(shí)間,還能提前保存下一批激活值。

在每個(gè)塊的執(zhí)行過程中,F(xiàn)lexGen 會重疊執(zhí)行以下三個(gè)步驟:

  1. 加載下一層的權(quán)重
  2. 存儲前一批的激活值 / KV 緩存
  3. 計(jì)算當(dāng)前批次的數(shù)據(jù)

這種流水線式處理大大緩解了內(nèi)存?zhèn)鬏攷淼男阅芟拗疲嵘苏w推理吞吐能力。

除了執(zhí)行調(diào)度之外,另一個(gè)關(guān)鍵問題是:如何在不同的硬件設(shè)備上合理分配模型權(quán)重?

FlexGen 采用一種基于線性規(guī)劃的搜索策略,來尋找最優(yōu)的權(quán)重分布方案,目標(biāo)是最小化整個(gè)模型推理所需的時(shí)間

圖片圖片

這里:

  • N: 每個(gè)序列的輸出token數(shù)
  • ??: transformer層數(shù)
  • block size: 在一個(gè)塊中處理多少個(gè)示例 (批次大小 × 批次數(shù))

實(shí)驗(yàn)數(shù)據(jù)顯示,F(xiàn)lexGen 在推理效率方面表現(xiàn)優(yōu)異推理速度可達(dá)到主流框架的數(shù)倍以上,成為當(dāng)前大模型部署中極具潛力的優(yōu)化方案。

6. 系統(tǒng)級優(yōu)化

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)(如 vLLM、LLMDeploy 等)通常采用先來先服務(wù)(FCFS)的調(diào)度策略,并以“運(yùn)行至完成”的方式執(zhí)行任務(wù)。這種機(jī)制雖然實(shí)現(xiàn)簡單,但在實(shí)際應(yīng)用中存在一個(gè)嚴(yán)重問題:線頭阻塞(Head-of-line Blocking)

6.1 長作業(yè)阻塞問題與 LLM 推理服務(wù)的調(diào)度挑戰(zhàn)

當(dāng)一個(gè)長請求排在隊(duì)列前面時(shí),它會阻塞后續(xù)的短請求,即使后者所需的計(jì)算資源和響應(yīng)時(shí)間遠(yuǎn)小于前者。結(jié)果是,短請求不得不等待長請求完成后才能開始處理,從而顯著增加了整體排隊(duì)延遲。研究表明,在真實(shí)工作負(fù)載中,排隊(duì)延遲可能占總延遲的高達(dá) 90%。

需要強(qiáng)調(diào)的是,這里所說的“短請求”和“長請求”,并不單純指輸入提示詞的長度,而是生成第一個(gè) token 所需的時(shí)間——即所謂的 First Token Latency(首 token 延遲)

6.2 解決方案:搶占式調(diào)度與多優(yōu)先級隊(duì)列

為了解決這一問題,一種可行的方法是引入搶占式調(diào)度機(jī)制:當(dāng)中間出現(xiàn)一個(gè)高優(yōu)先級的短請求時(shí),系統(tǒng)可以中斷當(dāng)前正在執(zhí)行的長請求,將已完成的部分結(jié)果緩存起來,保留未完成部分以便稍后繼續(xù)處理,然后切換去執(zhí)行短請求。

一旦短請求處理完畢,系統(tǒng)再回到之前被中斷的長請求,繼續(xù)執(zhí)行其剩余部分。要實(shí)現(xiàn)這樣的調(diào)度機(jī)制,系統(tǒng)必須支持多優(yōu)先級隊(duì)列的設(shè)計(jì)。

然而,這種方法本身也存在潛在缺陷:如果高級別隊(duì)列中堆積了大量長請求,它們可能會被頻繁中斷并反復(fù)進(jìn)入緩存狀態(tài),導(dǎo)致:

  • 緩存壓力增大
  • 長請求的整體完成時(shí)間變長
  • 系統(tǒng)調(diào)度開銷上升

6.3 FastServe 的優(yōu)化方案:多級反饋隊(duì)列 + 智能 KV 緩存管理

為了解決上述問題,FastServe 提出了一個(gè)多級反饋隊(duì)列(Multi-level Feedback Queue)機(jī)制。該機(jī)制的核心思想是:

在請求到達(dá)系統(tǒng)時(shí),首先預(yù)估其生成第一個(gè) token 所需的時(shí)間,并根據(jù)這一估計(jì)值將請求路由到合適的優(yōu)先級隊(duì)列中。

這種方式確保了短請求不會被長請求長時(shí)間阻塞,從而提升了整體服務(wù)質(zhì)量與用戶體驗(yàn)。

此外,F(xiàn)astServe 還結(jié)合了高效的 KV 緩存管理機(jī)制,允許在 GPU 切換隊(duì)列之間進(jìn)行主動的數(shù)據(jù)遷移和緩存預(yù)加載,進(jìn)一步降低了上下文切換帶來的延遲。

通過引入多級反饋隊(duì)列與智能調(diào)度策略,F(xiàn)astServe 成功緩解了傳統(tǒng) LLM 服務(wù)系統(tǒng)中的線頭阻塞問題,提升了短請求的響應(yīng)速度,同時(shí)又避免了長請求因頻繁中斷而導(dǎo)致的性能下降。這一方法為構(gòu)建高性能、低延遲的大模型推理服務(wù)平臺提供了重要參考。

7. 推理優(yōu)化的其他方法

在大語言模推理優(yōu)化領(lǐng)域,有一些方法已經(jīng)相對成熟,并被廣大工程師廣泛使用。這些技術(shù)涵蓋了從模型壓縮到推理加速的多個(gè)層面。

首先是量化技術(shù),它通過降低模型權(quán)重和激活值的精度(例如從 FP16 降至 INT4 或 FP8),在幾乎不影響模型性能的前提下顯著縮小模型體積并提升推理速度。多種先進(jìn)的量化方案已陸續(xù)被提出:AWQ 利用激活驅(qū)動的重要性評分實(shí)現(xiàn)激活感知量化,支持低位推理(如 INT3),無需再訓(xùn)練;LLM.int8() 引入帶校準(zhǔn)機(jī)制的 INT8 矩陣乘法,可在不損失準(zhǔn)確率的前提下運(yùn)行 Transformer 模型;SmoothQuant 則通過跨層對齊激活與權(quán)重范圍,提升后訓(xùn)練量化效果;ZeroQuant 及其后續(xù)版本 V2/FP 結(jié)合了低比特量化與低秩補(bǔ)償技術(shù),支持 INT4 和 FP4 的高效推理;LLM-FP4 展示了 FP4 表示方式在保持模型質(zhì)量的同時(shí)大幅提升推理效率的能力;WINT8 是專為 MoE 架構(gòu)模型設(shè)計(jì)的 INT8 量化方案,已在生產(chǎn)環(huán)境中落地應(yīng)用;SpQR 將量化與稀疏性結(jié)合,實(shí)現(xiàn)了近似無損的 LLM 壓縮,適用于邊緣部署場景;FP8-LM 探索了 FP8 格式在 Transformer 模型中的訓(xùn)練與推理優(yōu)化,有效減少了內(nèi)存占用與計(jì)算開銷;而 NVIDIA 定義的 FP8 格式,也正在成為深度學(xué)習(xí)系統(tǒng)的重要標(biāo)準(zhǔn)之一。

另一個(gè)值得關(guān)注的方向是早期退出機(jī)制。以 LITE 為例,該方法讓模型中間層學(xué)會做出預(yù)測,并在置信度足夠高時(shí)提前終止生成流程,從而節(jié)省高達(dá) 38% 的推理失敗成本,尤其適用于實(shí)時(shí)性要求高的場景。

在注意力機(jī)制方面,Flash Attention 是一個(gè)里程碑式的優(yōu)化技術(shù),它通過內(nèi)存分塊策略,在速度和內(nèi)存使用上都優(yōu)于傳統(tǒng)注意力實(shí)現(xiàn);ROFormer 引入旋轉(zhuǎn)位置嵌入,增強(qiáng)了模型在長距離依賴建模上的能力;StreamLLM 則支持在流式輸入過程中動態(tài)調(diào)整注意力窗口,提升了處理連續(xù)輸入的能力。

此外,非自回歸語言模型也在探索新的生成范式。例如 Diffusion-LM 首次將擴(kuò)散模型的思想引入文本生成任務(wù),為可控文本生成提供了新思路。

當(dāng)然,所有這些技術(shù)最終都需要高效的工具鏈來落地。其中,vLLM 是目前最受歡迎的開源 LLM 推理庫之一,由加州大學(xué)伯克利分校團(tuán)隊(duì)開發(fā),專注于提供高吞吐、低延遲的語言模型服務(wù)。它起源于 Page Attention 的思想,目前已集成上述提到的幾乎所有主流推理優(yōu)化技術(shù),形成了完整的推理加速解決方案。vLLM 社區(qū)活躍、生態(tài)完善,已成為當(dāng)前 LLM 推理優(yōu)化領(lǐng)域最具影響力的技術(shù)平臺之一。

參考資料

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-10-21 16:41:17

2025-06-11 02:30:00

2025-08-08 09:02:00

AI架構(gòu)模型

2024-12-23 16:02:39

2023-01-05 09:33:37

視覺模型訓(xùn)練

2022-12-09 09:52:47

AI深度學(xué)習(xí)

2025-04-30 16:48:07

2024-09-10 08:42:37

2024-01-02 07:15:59

大模型數(shù)據(jù)庫企業(yè)知識管家

2023-03-08 18:43:50

GPU模型隔離

2024-05-06 07:58:25

大模型AI智慧芽

2024-02-26 08:15:43

語言模型低代碼

2023-10-11 12:32:53

AI模型

2025-08-11 08:00:00

2023-05-05 13:29:04

模型推理

2024-07-08 12:18:13

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2025-07-31 01:47:00

2025-11-03 08:41:00

AI模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲精品8mav| 97人人模人人爽人人喊中文字| 999精品网站| 国产黄在线播放| 日本亚洲天堂网| 久久精品免费电影| 日本中文字幕精品| 三级在线看中文字幕完整版| 亚洲国产精品成人综合色在线婷婷 | 免费网站在线观看黄| 蜜桃传媒在线观看免费进入 | 91社区在线观看| 国产精品1区2区| 国产成人精品免费久久久久 | 日韩理论在线观看| 国内不卡一区二区三区| 波多野结衣家庭主妇| 婷婷丁香综合| 亚洲精品日韩久久久| www.国产福利| 中文字幕乱码在线播放| 亚洲你懂的在线视频| 免费av在线一区二区| av网站免费播放| 天堂成人免费av电影一区| 久久影视电视剧免费网站| 国产伦精品一区二区免费| 久久福利在线| 色婷婷av久久久久久久| 99国产精品白浆在线观看免费| 东热在线免费视频| 成人黄色国产精品网站大全在线免费观看 | 欧美一区不卡| 亚洲最大中文字幕| 漂亮人妻被黑人久久精品| 国产一区二区三区精品在线观看| 欧美午夜丰满在线18影院| 欧美日韩中文字幕在线播放| 91露出在线| 国产肉丝袜一区二区| 国产区欧美区日韩区| 国产aⅴ爽av久久久久成人| 男男成人高潮片免费网站| 欧美伊久线香蕉线新在线| 精品在线视频免费| 91精品电影| www.亚洲免费视频| 亚洲精品成人av久久| 久久不见久久见免费视频7| 亚洲国产高清福利视频| 亚洲精品中文字幕乱码无线| 久久91超碰青草在哪里看| 在线影视一区二区三区| 国产成人亚洲精品无码h在线| 波多野结衣中文字幕久久| 亚洲精品视频一区| 天天干天天色天天爽| 成人日批视频| 亚洲欧美一区二区久久| 中文字幕中文字幕在线中心一区| av在线女优影院| 欧美国产一区视频在线观看| 麻豆91蜜桃| 你懂的在线视频| 久久综合国产精品| 欧美激情一区二区三区在线视频 | 美女精品一区二区| 国产精品免费在线免费| 亚洲无码久久久久| 极品美女销魂一区二区三区| 91九色蝌蚪国产| 97在线公开视频| 国产美女在线观看一区| 亚洲一区国产精品| 亚洲国产成人精品一区二区三区| 成人蜜臀av电影| 久久偷看各类wc女厕嘘嘘偷窃| 神马电影在线观看| 国产欧美一区二区精品忘忧草| 日韩一本精品| 国产传媒在线播放| 亚洲高清视频的网址| 91成人在线观看国产| aaa人片在线| 日韩和欧美一区二区三区| 国产精品日韩一区| 99精品人妻无码专区在线视频区| 国产激情一区二区三区桃花岛亚洲| 福利视频久久| 青青久草在线| 自拍av一区二区三区| 欧美激情亚洲天堂| 2022成人影院| 欧美喷潮久久久xxxxx| 黄色a级三级三级三级| 久久影院资源站| 亚洲最新av网址| 精品国产乱码久久久久久鸭王1| 在线精品在线| 国产美女精彩久久| 欧美 日韩 国产 成人 在线 91| 久久久亚洲精品石原莉奈| 国产91av视频在线观看| 爱情岛亚洲播放路线| 欧美专区在线观看一区| 亚欧美一区二区三区| 亚洲动漫精品| 久久成人精品一区二区三区| 秋霞精品一区二区三区| 国产一区二区三区在线观看免费| 国产伦精品一区二区三区高清版| 成人影视在线播放| 亚洲午夜免费福利视频| 爱情岛论坛成人| aaa国产精品视频| 国产一区二区三区直播精品电影| 久久久久久久久久综合| 日本美女一区二区三区视频| 国产精品久久久久av福利动漫| 成年网站在线| 午夜久久福利影院| 手机精品视频在线| 波多野结衣一区| 91精品国产91久久久久久| 国产成人精品一区二区无码呦| 久久精品人人爽人人爽| 性一交一乱一伧国产女士spa| 99欧美精品| 日韩成人在线网站| 精品无码人妻一区二区三区品| 蜜桃av一区二区三区| 精品国产乱码久久久久久郑州公司 | 精品国产一区二区三区四区四 | 刘亦菲久久免费一区二区| 国产欧美一区二区三区网站| 欧美网站免费观看| 亚洲性视频在线| www.亚洲一区| 伊人亚洲综合网| 国产午夜精品在线观看| 欧美一区二区三区爽大粗免费| 在线精品自拍| 欧美成人第一页| 国产又粗又长又大视频| 中文字幕乱码亚洲精品一区| 日韩一级免费在线观看| 天堂网av成人| 韩剧1988免费观看全集| 亚洲欧美另类视频| 亚洲一级二级在线| 337p日本欧洲亚洲大胆张筱雨| 亚洲国产精品综合久久久| 国产一区二区在线免费视频| 五月婷婷在线观看| 欧美日韩精品一区二区三区| 久久免费手机视频| 欧美aaaaaa午夜精品| 亚洲欧洲精品在线| 欧美v亚洲v综合v国产v仙踪林| 在线观看国产欧美| 中文字幕永久免费视频| 国产精品久久影院| 日本不卡一区二区在线观看| 日韩一区电影| 成人午夜在线视频一区| 超碰在线无需免费| 日韩欧美国产电影| 日韩精品一区二区在线播放| 99久精品国产| www.日日操| 日韩一区自拍| 91观看网站| 成人影院在线视频| 亚洲视频一区二区| 在线视频你懂得| 亚洲三级在线看| 久久久久久久久久久久国产精品| 亚洲国产日本| 欧美一区二区三区成人久久片| 97成人超碰| 欧美精品免费看| 神马电影在线观看| 欧美日韩国产首页在线观看| 久久久久久久九九九九| 97久久精品人人爽人人爽蜜臀| www.欧美日本| 91精品婷婷色在线观看| 国产伦精品一区二区三| 日本欧美韩国| 欧美乱妇40p| 天堂а√在线8种子蜜桃视频| 日本高清视频一区二区| 婷婷在线精品视频| 97精品久久久久中文字幕| www日韩视频| 中文字幕一区二区av| 国产精品一区二区欧美黑人喷潮水| 欧美男人天堂| 精品国内亚洲在观看18黄| 蜜桃视频在线观看www| 欧美主播一区二区三区美女| 亚洲国产美女视频| 久久免费偷拍视频| 四虎国产精品永久免费观看视频| 国产视频一区在线观看一区免费| 亚洲欧洲日韩精品| 噜噜噜天天躁狠狠躁夜夜精品| 国产精品视频最多的网站| 日本高清在线观看| 一个人看的www久久| 日韩一卡二卡在线| 欧美日韩一区二区三区不卡| 久久高清免费视频| ...av二区三区久久精品| 黄色工厂在线观看| 国产成人在线视频播放| 免费激情视频在线观看| 激情综合在线| 免费观看中文字幕| 国产日产一区| 国产一区二区三区免费不卡| 天堂综合在线播放| 国产ts一区二区| a'aaa级片在线观看| 久久精品久久久久| sese一区| 亚洲视频在线观看视频| 色婷婷av一区二区三区之红樱桃 | 国产精品亚洲lv粉色| 日韩欧美精品中文字幕| 久久午夜鲁丝片午夜精品| 中文字幕在线不卡一区二区三区| 亚洲精品成人无码熟妇在线| 不卡区在线中文字幕| 亚洲无在线观看| 美女mm1313爽爽久久久蜜臀| 波多野结衣家庭教师视频| 日韩午夜av| av一区二区三区免费观看| 中文字幕免费一区二区| 日日噜噜噜夜夜爽爽| 久久高清精品| 亚洲精品乱码视频| 日韩精品一区二区久久| 神马影院我不卡午夜| 亚洲精品aaaaa| 国新精品乱码一区二区三区18| 18国产精品| 97人人干人人| 4438全国亚洲精品观看视频| 亚洲综合中文字幕68页| 免费精品一区| 亚洲综合成人婷婷小说| 麻豆一区在线| 999国内精品视频在线| 欧美午夜网站| 成人一区二区在线| 99国产精品免费网站| 国产福利久久精品| 国产主播性色av福利精品一区| 国产精品区二区三区日本| 成人午夜网址| 精品中文字幕人| 亚洲三级性片| 午夜精品福利一区二区| 91日韩欧美| 国产女人18毛片| 黄色成人91| a级黄色一级片| 久久国产欧美| 国产色视频在线播放| 国产精品伊人色| 日韩少妇一区二区| 久久亚洲捆绑美女| 91禁男男在线观看| 亚洲欧美偷拍另类a∨色屁股| 久久久久黄色片| 精品久久久久久久中文字幕 | 最近中文字幕免费视频| 中文字幕不卡三区| 日韩黄色免费观看| 亚洲大片在线观看| aaaaaa毛片| 欧美另类变人与禽xxxxx| 亚洲第一天堂影院| 日韩精品免费在线播放| 91高清在线| 欧美激情免费看| 日本不卡一二三| 成人在线小视频| 人人精品视频| 亚洲午夜精品久久久中文影院av | 两个人的视频www国产精品| a'aaa级片在线观看| 国产精品视频1区| 澳门成人av| 亚欧洲精品在线视频免费观看| 欧美在线精品一区| 国产成人综合一区| 福利电影一区二区三区| 免费黄色片网站| 亚洲精品乱码久久久久久久久 | 成人国产精品一区二区| 成人av综合网| 亚洲欧美日韩在线综合| 亚洲精品一级| 8x8x成人免费视频| 91毛片在线观看| 国产盗摄一区二区三区在线| 色94色欧美sute亚洲线路一久| 性中国xxx极品hd| 国产一区二区三区视频| 久草在线新免费首页资源站| 国产精品久久久久久久久久久久久| 51vv免费精品视频一区二区 | 国产伦精品一区二区三区妓女| 一区在线播放视频| 亚洲AV无码成人精品区东京热| 日韩一区二区三区视频在线观看| 国产区视频在线播放| 午夜精品理论片| 欧美黄视频在线观看| 性刺激综合网| 亚洲欧美高清| www.男人天堂| 亚洲一区影音先锋| 99久久国产免费| 这里只有精品视频| 色婷婷综合久久久中字幕精品久久| 精品婷婷色一区二区三区蜜桃| 中文字幕免费精品| 国产又粗又长又爽又黄的视频| 国产欧美综合在线观看第十页| av网站中文字幕| 亚洲精品短视频| 91桃色在线观看| 丁香婷婷久久久综合精品国产| 亚洲老妇激情| 亚洲高清在线不卡| 国产精品盗摄一区二区三区| 一级久久久久久| 国产午夜精品全部视频播放 | 国产精品爽黄69| 精品国产一区二区三区四区| 91精品91久久久中77777老牛| 不卡一区中文字幕| 国产在线综合网| 日韩欧美高清在线| 色女人在线视频| 99在线热播| 亚洲日本激情| 日本少妇xxxx| 天天操天天干天天综合网| 熟妇高潮一区二区高潮| 2025国产精品视频| 亚洲专区视频| 国产高潮免费视频| 国产精品不卡一区| 国产模特av私拍大尺度| 欧美日韩爱爱视频| 99精品国产一区二区三区2021| 精品视频在线观看一区二区| 成人免费av在线| 国产尤物在线视频| 国产一区二区三区免费视频| 精品久久在线| 中文字幕超清在线免费观看| 国产福利一区二区三区视频在线| 精国产品一区二区三区a片| 精品久久久久久亚洲综合网| 国产污视频在线播放| 欧美二区在线| 蜜桃视频免费观看一区| wwwav国产| 日韩经典中文字幕| 992tv国产精品成人影院| 青少年xxxxx性开放hg| 国产电影精品久久禁18| 免费在线不卡视频| 国产亚洲日本欧美韩国| 久久久久久亚洲精品美女| 亚洲人精品午夜射精日韩 | 亚洲色图100p| 日韩欧美资源站| 久久男人av资源站| 相泽南亚洲一区二区在线播放 | 亚洲国产第一区| 在线免费观看日韩欧美| gogo在线观看| 久久国产精品亚洲va麻豆| 日本不卡视频在线观看| 久久久久亚洲av无码专区体验| 日韩精品免费看| 四虎永久精品在线| 欧美a v在线播放| 国产精品久久一卡二卡| 午夜性色福利视频| 91精品国产自产在线观看永久| 伊人成人在线| 国产3级在线观看|