大模型服務(wù)的推理優(yōu)化探索

作者：曹洪偉 2025-07-08 03:11:00

大模型的能力令人驚嘆，但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段：預(yù)填充和解碼。

開發(fā)并部署大模型應(yīng)用肯定要考慮它們的服務(wù)成本。然而，錢并不是唯一的考慮因素，如果不能解決模型性能方面的問題，即使有很大的預(yù)算，大模型服務(wù)仍會受到影響。本文嘗試討論將 LLM 推理服務(wù)更改為高吞吐量引擎的挑戰(zhàn)與應(yīng)對方法。

1. 大模型服務(wù)面臨的挑戰(zhàn)

大模型的能力令人驚嘆，但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段：預(yù)填充和解碼。在預(yù)填充階段，當(dāng)你輸入提示詞（包含上下文、對話歷史、問題等信息）時(shí)，模型需要一次性處理所有輸入的 token。隨后進(jìn)入解碼階段，模型開始逐個(gè)生成輸出 token，且每個(gè)新 token 的生成都嚴(yán)格依賴于之前生成的 token。可以這樣類比：預(yù)填充就像為一盤象棋游戲精心布局（耗時(shí)較長），而解碼則類似于后續(xù)一步接一步的落子（單步較快）。然而，現(xiàn)實(shí)并非如此輕松——部署大型模型遠(yuǎn)非易事，必須仔細(xì)考量其帶來的延遲問題。

1.1 數(shù)據(jù)稀疏性問題

在神經(jīng)網(wǎng)絡(luò)中，尤其是前饋網(wǎng)絡(luò)（FFN），許多神經(jīng)元的激活值為零。這種稀疏性導(dǎo)致矩陣乘法中存在大量零元素，從而浪費(fèi)了計(jì)算資源。如果我們能夠跳過這些零值，僅對非零元素進(jìn)行計(jì)算，將顯著提升推理效率。

更重要的是，在深度學(xué)習(xí)系統(tǒng)中，數(shù)據(jù)在 CPU 和 GPU 之間傳輸所消耗的時(shí)間往往遠(yuǎn)高于實(shí)際計(jì)算時(shí)間。此外，隨著模型規(guī)模的增長，一些包含數(shù)萬億參數(shù)的超大規(guī)模模型根本無法容納在單個(gè) GPU 中，使得稀疏性優(yōu)化變得尤為關(guān)鍵。

1.2 請求調(diào)度問題

大模型通常需要同時(shí)處理多個(gè)用戶請求。在這種多任務(wù)場景下，短小快速的請求（例如查詢天氣、時(shí)間或簡短答案）可能不得不排隊(duì)等待長時(shí)間請求完成。這導(dǎo)致整體平均響應(yīng)時(shí)間主要受制于等待時(shí)間，而非實(shí)際計(jì)算耗時(shí)。

即使你的模型計(jì)算速度非常快，也必須等待前面的請求執(zhí)行完畢才能開始處理下一個(gè)。因此，如何高效地調(diào)度和優(yōu)先處理不同類型請求，是提升服務(wù)吞吐量與用戶體驗(yàn)的關(guān)鍵挑戰(zhàn)。

1.3 順序解碼問題

當(dāng)前的語言模型生成機(jī)制限制了token之間的并行化能力。每個(gè)前向傳播只能生成一個(gè)新 token（或少量 token），這意味著長文本回復(fù)必須逐字逐句地生成。這也是為什么像 ChatGPT 這類模型在生成長文時(shí)，通常采用“流式輸出”的方式呈現(xiàn)結(jié)果。

有趣的是，盡管流式輸出能帶來更即時(shí)的反饋體驗(yàn)，但其本質(zhì)仍然是串行生成過程。因此，“先看到一部分”并不意味著更快完成整個(gè)生成任務(wù)，反而揭示了當(dāng)前解碼機(jī)制在并行性上的瓶頸。

1.4 KV 緩存增長問題

注意力機(jī)制是 LLM 推理的核心環(huán)節(jié)，尤其是在長序列中，計(jì)算所有 token 之間的相關(guān)性會帶來巨大的計(jì)算負(fù)擔(dān)。每當(dāng)模型生成一個(gè)新的 token，都需要重復(fù)計(jì)算之前所有 token 的注意力權(quán)重，造成大量冗余操作。

KV 緩存（Key-Value Cache）是一種有效的優(yōu)化策略，它通過緩存已生成 token 的中間狀態(tài)，避免重復(fù)計(jì)算，從而加速推理過程。然而，隨著生成序列變長，KV 緩存占用的內(nèi)存也會持續(xù)增長，成為影響推理效率和部署成本的重要因素。

2. 推理優(yōu)化之KV Cache 管理

KV 緩存是 LLM 推理過程中占用內(nèi)存最多的部分之一。隨著上下文長度的增加，KV 緩存所需的存儲空間也隨之增長。例如，一個(gè)支持最大輸入長度為 2048 個(gè) token 的模型，需要預(yù)留 2048 個(gè)緩存插槽。如果用戶僅輸入了一個(gè)包含 7 個(gè) token 的提示詞，那么其余 2000 多個(gè)插槽雖然未被使用，卻依然被系統(tǒng)預(yù)留，造成內(nèi)部內(nèi)存碎片。

在每一步推理中，模型都會生成新的 KV 對，并在后續(xù) attention 計(jì)算中使用，因此必須將它們緩存起來。KV 緩存通常以連續(xù)的內(nèi)存塊或“頁”形式進(jìn)行分配。然而，當(dāng)某個(gè)序列生成完成后，其占用的內(nèi)存頁被釋放，但這些頁可能并不連續(xù)。這就導(dǎo)致了外部內(nèi)存碎片：大量小塊空閑內(nèi)存分散在內(nèi)存中，無法滿足后續(xù)請求所需的連續(xù)內(nèi)存空間。

為了解決這一問題，研究者借鑒操作系統(tǒng)的內(nèi)存管理機(jī)制，提出了頁面注意力機(jī)制（PagedAttention）。該機(jī)制將 KV 緩存組織成邏輯內(nèi)存塊，并通過頁表進(jìn)行管理，從而實(shí)現(xiàn)靈活的內(nèi)存映射和高效利用。其核心思想包括以下幾個(gè)關(guān)鍵方式：

固定大小的內(nèi)存塊：頁面注意力機(jī)制采用固定大小的小型內(nèi)存單元（稱為“頁”）來存儲 KV 緩存，類似于操作系統(tǒng)中的分頁機(jī)制。
共享內(nèi)存塊：這些內(nèi)存頁可以在多個(gè)請求之間共享，提高資源利用率。
按需動態(tài)分配：內(nèi)存塊根據(jù)生成過程動態(tài)分配，無需預(yù)先估計(jì)最大序列長度，避免了不必要的內(nèi)存浪費(fèi)。

通過引入這種高效的內(nèi)存管理策略，頁面注意力機(jī)制顯著提升了推理時(shí)的內(nèi)存利用率和并發(fā)處理能力，是當(dāng)前大模型部署優(yōu)化的重要方向之一。

2.1 基于 Radix Tree 的 KV 緩存優(yōu)化

在計(jì)算機(jī)科學(xué)中，Radix Tree（也稱為緊湊前綴樹或壓縮 Trie 樹）是一種空間優(yōu)化的樹形數(shù)據(jù)結(jié)構(gòu)。它通過對具有相同前綴的節(jié)點(diǎn)進(jìn)行合并，減少了存儲開銷，從而提升了查找效率。

在大語言模型（LLM）推理中，基于 Radix Tree 的 KV 緩存技術(shù)被用于高效地重用多個(gè)推理請求之間的緩存數(shù)據(jù)，尤其適用于多個(gè)請求共享相同輸入前綴的場景。通過將 KV 緩存組織為 Radix Tree 結(jié)構(gòu)，系統(tǒng)可以快速檢索和復(fù)用已有的緩存內(nèi)容，并在不同請求之間實(shí)現(xiàn)靈活共享。

相比傳統(tǒng)的線性緩存管理方式，Radix Tree 在內(nèi)存利用和訪問效率上更具優(yōu)勢。其構(gòu)建成本約為 O(n log n)，而在注意力計(jì)算中的額外開銷相對較小，約為 O(n2) 量級，這對于提升多請求并發(fā)處理能力具有重要意義。

2.2 多種注意力機(jī)制下的 KV 管理策略

多頭注意力機(jī)制（Multi-Head Attention）是 Transformer 模型的核心組成部分，也是當(dāng)前大多數(shù) LLM 的核心架構(gòu)。每個(gè)注意力頭從不同的角度理解文本內(nèi)容：有的關(guān)注主語與動詞的關(guān)系，有的聚焦詞匯本身，還有的分析句子結(jié)構(gòu)。這種多頭設(shè)計(jì)顯著增強(qiáng)了模型的理解能力。

然而，每個(gè)注意力頭都需要獨(dú)立維護(hù)一組 Key 和 Value 向量，導(dǎo)致 KV 緩存的內(nèi)存占用急劇上升。特別是在處理長文本或多任務(wù)并發(fā)時(shí)，這些向量會占用大量顯存資源，成為性能瓶頸。

為了緩解這一問題，研究者提出了多種優(yōu)化方案：

組查詢注意力（Grouped Query Attention, GQA）：允許部分注意力頭共享相同的 Key 和 Value 向量，從而減少整體緩存需求。
多查詢注意力（Multi-Query Attention, MQA）：僅使用一組 Key 和 Value 向量供所有查詢頭共享，是目前最節(jié)省內(nèi)存和計(jì)算時(shí)間的方法之一。

此外，像 DeepSeek 這類開源模型進(jìn)一步引入了 Flash Multi-Latent Attention（Flash MLA） 技術(shù)，在訓(xùn)練和推理階段實(shí)現(xiàn)了更高效的注意力計(jì)算。該方法通過低秩壓縮技術(shù)，將 Key 和 Value 向量向下投影到一個(gè)維度更低的潛在空間，從而大幅減小緩存體積。在實(shí)際計(jì)算注意力時(shí)再進(jìn)行向上投影。

圖片

更巧妙的是，該方法還將向上投影的權(quán)重矩陣與查詢矩陣進(jìn)行融合，從而加快注意力的計(jì)算速度，進(jìn)一步提升推理效率。

3. 推理優(yōu)化之 Query-sparsity attention

在 MIT 發(fā)表的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》中，研究者指出：Transformer 層中普遍存在高度稀疏性。這意味著，在實(shí)際推理過程中，并非網(wǎng)絡(luò)中的所有神經(jīng)元都會被激活。

基于這一觀察，研究人員提出了一種高效的模型推理方法——利用這種稀疏性進(jìn)行剪枝，從而顯著減少計(jì)算開銷。其背后的邏輯非常直觀：并不是每個(gè) token 都對上下文理解有貢獻(xiàn)。

舉個(gè)簡單的例子：

我們輸入提示詞：“A is B, C is D. A is”，期望模型輸出下一個(gè)詞：“B”。在這個(gè)任務(wù)中，模型只需要關(guān)注最相關(guān)的幾個(gè) token 即可完成預(yù)測，而其余部分則可以忽略。這表明，模型的注意力機(jī)制具有明顯的查詢依賴性，即“查詢感知稀疏性（Query-Aware Sparsity）”。

基于這一洞察，QUEST 提出了一種高效策略：在注意力計(jì)算中，只選擇與當(dāng)前查詢最相關(guān)的 KV 緩存塊進(jìn)行處理。具體來說，該方法會在所有數(shù)據(jù)塊中找出前 k 個(gè)最關(guān)鍵的數(shù)據(jù)塊來進(jìn)行后續(xù)計(jì)算。

圖片

以下是 QUEST 的核心流程：

塊級特征提取對于每一個(gè) KV 數(shù)據(jù)塊，QUEST 首先提取其最小和最大 Key 值以及通道極值。
查詢特征生成接著，根據(jù)當(dāng)前查詢向量，逐元素生成對應(yīng)的 max 和 min Key 值。
快速篩選機(jī)制通過上述技巧，系統(tǒng)能夠快速評估哪些 KV 塊與當(dāng)前查詢最為相關(guān)，從而避免大量無效計(jì)算。
Top-k 選擇最終，僅保留與查詢最相關(guān)的前 k 個(gè) KV 塊，用于后續(xù)注意力計(jì)算。

通過這一系列優(yōu)化，QUEST 顯著減少了注意力機(jī)制中的冗余計(jì)算，從而提升了長上下文場景下的推理效率。

當(dāng)然，一個(gè)關(guān)鍵問題是：如何選擇合適的 k 值？

k 是一個(gè)需要通過實(shí)驗(yàn)調(diào)優(yōu)的超參數(shù)。研究表明，當(dāng)設(shè)置 k = 4096 時(shí)，模型性能幾乎接近完整計(jì)算的水平（約 100%），同時(shí)又能帶來顯著的效率提升。因此，這是一個(gè)兼顧準(zhǔn)確率與效率的推薦值。

4. 推理優(yōu)化之推測性解碼

推測性解碼（Speculative Decoding）是加速大語言模型推理的重要技術(shù)之一。這一方法的重要性也得到了 Andrej Karpathy 的認(rèn)可，并在 2022 年由 Google 首次提出并應(yīng)用于實(shí)際系統(tǒng)中。

其核心思想非常直觀且巧妙：與其僅依賴一個(gè)龐大、準(zhǔn)確但緩慢的目標(biāo)模型逐 token 地生成結(jié)果，不如先使用一個(gè)輕量級、快速但相對不夠精準(zhǔn)的小模型（稱為“草稿模型”）來預(yù)測多個(gè)后續(xù) token。然后，再由大模型（即目標(biāo)模型）對這些預(yù)測進(jìn)行驗(yàn)證。

如果目標(biāo)模型認(rèn)同草稿模型的預(yù)測，則可以直接接受這些 token，從而大幅提升生成效率；如果不一致，則從分歧點(diǎn)開始重新生成。雖然這種機(jī)制存在一定的回退成本，但在多數(shù)情況下，草稿模型的預(yù)測是準(zhǔn)確的，因此整體上節(jié)省了大量計(jì)算資源。

草稿模型可以是一個(gè)小型神經(jīng)網(wǎng)絡(luò)模型，例如參數(shù)規(guī)模在 1B～3B 的模型，甚至也可以是基于統(tǒng)計(jì)的 N-gram 模型。而目標(biāo)模型則通常是擁有數(shù)十億甚至上萬億參數(shù)的大模型。

盡管使用兩個(gè)模型看似會增加內(nèi)存和計(jì)算開銷，但在實(shí)際應(yīng)用中，由于草稿模型的預(yù)測準(zhǔn)確率較高，尤其是對于常見詞匯（如“是的”、“這個(gè)”、“是”、“等等”）幾乎不會出錯，因此能顯著提升推理速度。

更重要的是，所有由草稿模型生成的 token 可以被目標(biāo)模型一次性并行驗(yàn)證，而不是傳統(tǒng)的逐 token 自回歸生成方式。這種方式大幅減少了生成延遲，為長文本輸出帶來了實(shí)質(zhì)性的性能提升。

5. 推理優(yōu)化之資源調(diào)度

在大模型推理中，調(diào)度（scheduling） 是一項(xiàng)關(guān)鍵挑戰(zhàn)，其核心在于如何在有限的硬件資源（如 GPU、CPU 和硬盤）之間實(shí)現(xiàn)高效的負(fù)載平衡。一個(gè)優(yōu)秀的調(diào)度策略不僅能通過并行計(jì)算加速推理過程，還能讓擁有上百億參數(shù)的大模型（例如 100B 參數(shù)模型）在低配置設(shè)備（如搭載 T4 GPU 的 PC）上順利運(yùn)行。

要實(shí)現(xiàn)這一目標(biāo)，通常依賴于兩個(gè)關(guān)鍵技術(shù)要素：

智能地在 GPU、CPU 和硬盤之間加載和卸載模型權(quán)重
高效管理計(jì)算單元之間的數(shù)據(jù) I/O 傳輸

為了解決這兩個(gè)問題，來自斯坦福大學(xué)、加州大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)的研究者提出了 FlexGen，這是一套具有代表性的系統(tǒng)級優(yōu)化方案，旨在提升大規(guī)模語言模型在受限硬件上的推理效率。

5.1 FlexGen 的核心機(jī)制

FlexGen 將每個(gè)需要處理的數(shù)據(jù)塊定義為“一批數(shù)據(jù)”，這些數(shù)據(jù)被依次加載到模型的不同層進(jìn)行計(jì)算。其中，列方向表示批處理維度，而行方向則對應(yīng)模型層數(shù)的順序處理。

為了保證執(zhí)行效率和資源約束，F(xiàn)lexGen 定義了一條“有效路徑”——即遍歷所有數(shù)據(jù)塊的最優(yōu)執(zhí)行路徑，必須滿足以下條件：

數(shù)據(jù)必須從左到右按順序執(zhí)行
同一批次的所有數(shù)據(jù)必須位于同一設(shè)備上
激活值必須按照正確的滑動窗口進(jìn)行處理
KV 緩存需保留至當(dāng)前批次完成
在任意時(shí)刻，設(shè)備上存儲的張量總大小不能超過其內(nèi)存容量

假設(shè)我們有 N 個(gè) token，每個(gè) token 的數(shù)據(jù)將按照順序依次加載并計(jì)算。每層的權(quán)重僅在需要時(shí)加載，在計(jì)算完成后立即卸載。然而，這種頻繁的加載/卸載操作會帶來顯著的時(shí)間開銷——因?yàn)殡m然 GPU 的計(jì)算速度極快，但內(nèi)存?zhèn)鬏攨s相對緩慢。

5.2 FlexGen 的優(yōu)化策略

為了解決上述瓶頸，F(xiàn)lexGen 引入了靈活的執(zhí)行調(diào)度方式，例如通過調(diào)整掃描順序（從行到列、之字形塊調(diào)度等），從而避免不必要的 I/O 操作。它不僅能夠節(jié)省下一層模型權(quán)重的加載時(shí)間，還能提前保存下一批激活值。

在每個(gè)塊的執(zhí)行過程中，F(xiàn)lexGen 會重疊執(zhí)行以下三個(gè)步驟：

加載下一層的權(quán)重
存儲前一批的激活值 / KV 緩存
計(jì)算當(dāng)前批次的數(shù)據(jù)

這種流水線式處理大大緩解了內(nèi)存?zhèn)鬏攷淼男阅芟拗疲嵘苏w推理吞吐能力。

除了執(zhí)行調(diào)度之外，另一個(gè)關(guān)鍵問題是：如何在不同的硬件設(shè)備上合理分配模型權(quán)重？

FlexGen 采用一種基于線性規(guī)劃的搜索策略，來尋找最優(yōu)的權(quán)重分布方案，目標(biāo)是最小化整個(gè)模型推理所需的時(shí)間。

圖片

這里:

N: 每個(gè)序列的輸出token數(shù)
??: transformer層數(shù)
block size: 在一個(gè)塊中處理多少個(gè)示例 (批次大小 × 批次數(shù))

實(shí)驗(yàn)數(shù)據(jù)顯示，F(xiàn)lexGen 在推理效率方面表現(xiàn)優(yōu)異推理速度可達(dá)到主流框架的數(shù)倍以上，成為當(dāng)前大模型部署中極具潛力的優(yōu)化方案。

6. 系統(tǒng)級優(yōu)化

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)（如 vLLM、LLMDeploy 等）通常采用先來先服務(wù)（FCFS）的調(diào)度策略，并以“運(yùn)行至完成”的方式執(zhí)行任務(wù)。這種機(jī)制雖然實(shí)現(xiàn)簡單，但在實(shí)際應(yīng)用中存在一個(gè)嚴(yán)重問題：線頭阻塞（Head-of-line Blocking）。

6.1 長作業(yè)阻塞問題與 LLM 推理服務(wù)的調(diào)度挑戰(zhàn)

當(dāng)一個(gè)長請求排在隊(duì)列前面時(shí)，它會阻塞后續(xù)的短請求，即使后者所需的計(jì)算資源和響應(yīng)時(shí)間遠(yuǎn)小于前者。結(jié)果是，短請求不得不等待長請求完成后才能開始處理，從而顯著增加了整體排隊(duì)延遲。研究表明，在真實(shí)工作負(fù)載中，排隊(duì)延遲可能占總延遲的高達(dá) 90%。

需要強(qiáng)調(diào)的是，這里所說的“短請求”和“長請求”，并不單純指輸入提示詞的長度，而是生成第一個(gè) token 所需的時(shí)間——即所謂的 First Token Latency（首 token 延遲）。

6.2 解決方案：搶占式調(diào)度與多優(yōu)先級隊(duì)列

為了解決這一問題，一種可行的方法是引入搶占式調(diào)度機(jī)制：當(dāng)中間出現(xiàn)一個(gè)高優(yōu)先級的短請求時(shí)，系統(tǒng)可以中斷當(dāng)前正在執(zhí)行的長請求，將已完成的部分結(jié)果緩存起來，保留未完成部分以便稍后繼續(xù)處理，然后切換去執(zhí)行短請求。

一旦短請求處理完畢，系統(tǒng)再回到之前被中斷的長請求，繼續(xù)執(zhí)行其剩余部分。要實(shí)現(xiàn)這樣的調(diào)度機(jī)制，系統(tǒng)必須支持多優(yōu)先級隊(duì)列的設(shè)計(jì)。

然而，這種方法本身也存在潛在缺陷：如果高級別隊(duì)列中堆積了大量長請求，它們可能會被頻繁中斷并反復(fù)進(jìn)入緩存狀態(tài)，導(dǎo)致：

緩存壓力增大
長請求的整體完成時(shí)間變長
系統(tǒng)調(diào)度開銷上升

6.3 FastServe 的優(yōu)化方案：多級反饋隊(duì)列 + 智能 KV 緩存管理

為了解決上述問題，FastServe 提出了一個(gè)多級反饋隊(duì)列（Multi-level Feedback Queue）機(jī)制。該機(jī)制的核心思想是：

在請求到達(dá)系統(tǒng)時(shí)，首先預(yù)估其生成第一個(gè) token 所需的時(shí)間，并根據(jù)這一估計(jì)值將請求路由到合適的優(yōu)先級隊(duì)列中。

這種方式確保了短請求不會被長請求長時(shí)間阻塞，從而提升了整體服務(wù)質(zhì)量與用戶體驗(yàn)。

此外，F(xiàn)astServe 還結(jié)合了高效的 KV 緩存管理機(jī)制，允許在 GPU 切換隊(duì)列之間進(jìn)行主動的數(shù)據(jù)遷移和緩存預(yù)加載，進(jìn)一步降低了上下文切換帶來的延遲。

通過引入多級反饋隊(duì)列與智能調(diào)度策略，F(xiàn)astServe 成功緩解了傳統(tǒng) LLM 服務(wù)系統(tǒng)中的線頭阻塞問題，提升了短請求的響應(yīng)速度，同時(shí)又避免了長請求因頻繁中斷而導(dǎo)致的性能下降。這一方法為構(gòu)建高性能、低延遲的大模型推理服務(wù)平臺提供了重要參考。

7. 推理優(yōu)化的其他方法

在大語言模推理優(yōu)化領(lǐng)域，有一些方法已經(jīng)相對成熟，并被廣大工程師廣泛使用。這些技術(shù)涵蓋了從模型壓縮到推理加速的多個(gè)層面。

首先是量化技術(shù)，它通過降低模型權(quán)重和激活值的精度（例如從 FP16 降至 INT4 或 FP8），在幾乎不影響模型性能的前提下顯著縮小模型體積并提升推理速度。多種先進(jìn)的量化方案已陸續(xù)被提出：AWQ 利用激活驅(qū)動的重要性評分實(shí)現(xiàn)激活感知量化，支持低位推理（如 INT3），無需再訓(xùn)練；LLM.int8() 引入帶校準(zhǔn)機(jī)制的 INT8 矩陣乘法，可在不損失準(zhǔn)確率的前提下運(yùn)行 Transformer 模型；SmoothQuant 則通過跨層對齊激活與權(quán)重范圍，提升后訓(xùn)練量化效果；ZeroQuant 及其后續(xù)版本 V2/FP 結(jié)合了低比特量化與低秩補(bǔ)償技術(shù)，支持 INT4 和 FP4 的高效推理；LLM-FP4 展示了 FP4 表示方式在保持模型質(zhì)量的同時(shí)大幅提升推理效率的能力；WINT8 是專為 MoE 架構(gòu)模型設(shè)計(jì)的 INT8 量化方案，已在生產(chǎn)環(huán)境中落地應(yīng)用；SpQR 將量化與稀疏性結(jié)合，實(shí)現(xiàn)了近似無損的 LLM 壓縮，適用于邊緣部署場景；FP8-LM 探索了 FP8 格式在 Transformer 模型中的訓(xùn)練與推理優(yōu)化，有效減少了內(nèi)存占用與計(jì)算開銷；而 NVIDIA 定義的 FP8 格式，也正在成為深度學(xué)習(xí)系統(tǒng)的重要標(biāo)準(zhǔn)之一。

另一個(gè)值得關(guān)注的方向是早期退出機(jī)制。以 LITE 為例，該方法讓模型中間層學(xué)會做出預(yù)測，并在置信度足夠高時(shí)提前終止生成流程，從而節(jié)省高達(dá) 38% 的推理失敗成本，尤其適用于實(shí)時(shí)性要求高的場景。

在注意力機(jī)制方面，Flash Attention 是一個(gè)里程碑式的優(yōu)化技術(shù)，它通過內(nèi)存分塊策略，在速度和內(nèi)存使用上都優(yōu)于傳統(tǒng)注意力實(shí)現(xiàn)；ROFormer 引入旋轉(zhuǎn)位置嵌入，增強(qiáng)了模型在長距離依賴建模上的能力；StreamLLM 則支持在流式輸入過程中動態(tài)調(diào)整注意力窗口，提升了處理連續(xù)輸入的能力。

此外，非自回歸語言模型也在探索新的生成范式。例如 Diffusion-LM 首次將擴(kuò)散模型的思想引入文本生成任務(wù)，為可控文本生成提供了新思路。

當(dāng)然，所有這些技術(shù)最終都需要高效的工具鏈來落地。其中，vLLM 是目前最受歡迎的開源 LLM 推理庫之一，由加州大學(xué)伯克利分校團(tuán)隊(duì)開發(fā)，專注于提供高吞吐、低延遲的語言模型服務(wù)。它起源于 Page Attention 的思想，目前已集成上述提到的幾乎所有主流推理優(yōu)化技術(shù)，形成了完整的推理加速解決方案。vLLM 社區(qū)活躍、生態(tài)完善，已成為當(dāng)前 LLM 推理優(yōu)化領(lǐng)域最具影響力的技術(shù)平臺之一。