精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<noscript id="4yoqg"><optgroup id="4yoqg"></optgroup></noscript>

<kbd id="4yoqg"><pre id="4yoqg"></pre></kbd>

<tr id="4yoqg"></tr>

<kbd id="4yoqg"><pre id="4yoqg"></pre></kbd>

<strike id="4yoqg"></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）原創(chuàng)

發(fā)布于 2025-5-28 11:25

瀏覽

0收藏

編者按： 如何將 LLM 的推理過程從“燒錢的無底洞”轉變?yōu)椤案咝阅艿纳a力引擎”？本文深入剖析了提升 LLM 推理效率的五大核心技術：巧妙的 KV 緩存管理、Query-sparsity attention（QUEST）、推測解碼（使用 draft model 加速生成過程）、權重調度（通過 Flexgen 實現跨設備資源分配）以及系統級優(yōu)化（FastServe 解決隊頭阻塞問題）。此外，作者還簡要介紹了多種常見優(yōu)化方向，包括量化技術（AWQ、INT8、FP8 等）、Early Exit Inference（LITE）、注意力機制優(yōu)化（FlashAttention、ROFormer）以及使用非自回歸 LLM 等。

作者 | Trung Thanh Tran

編譯 | 岳揚

如果您正在開發(fā) AI 解決方案，并托管基于大語言模型（LLMs）的基礎模型，那么您就應該關注模型服務的成本。然而，資金并非唯一的考量因素。請相信，如果無法解決模型性能的難題，即便預算充足，LLMs serving 的實際效果仍會大打折扣。本文將探討如何將 LLM 的推理過程從「燒錢的無底洞」轉變?yōu)椤父咝阅艿纳a力引擎」。

目錄

01 LLMs serving 面臨的一些挑戰(zhàn)

02 主題 1：巧妙的 KV 緩存管理

03 主題 2：Query-sparsity attention

04 主題 3：推測解碼

05 主題 4：權重調度

06 主題 5：系統級優(yōu)化

07 其他主題

08 如何應用這些技術

01 LLMs serving 面臨的一些挑戰(zhàn)

LLMs 非常強大，但它們的特性使其難以高效服務。LLM 的推理過程包含兩個階段：

1) 預填充階段：當你輸入提示詞（上下文、對話歷史、問題等）時，模型會一次性處理所有 token。

2) 解碼階段：在初始的提示詞后，模型逐 token 生成內容，每個新 token 依賴于之前生成的 token。

舉一個易懂的類比：預填充階段如同下棋時擺棋盤（耗時較長），而解碼階段則像擺好棋后逐步下棋（每一步都很快）。

然而，LLMs serving（譯者注：將訓練好的大語言模型部署到實際應用中，以低延遲、高吞吐、資源高效的方式處理用戶請求的技術過程。）并非輕而易舉，必須考慮以下問題：

Sparsity

在神經網絡（尤其是 FFN 模塊）中，大量神經元的激活值為零。跳過這些零激活值的神經元、僅計算非零元素可以大大節(jié)省運算時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

LLM 中大量神經元的激活值為零，導致矩陣運算中存在大量零值。圖片來源[1]

內存帶寬限制與內存瓶頸

在 GPU 上傳輸數據往往超過數據計算的耗時。此外，大型模型（例如傳聞參數量達萬億的 ChatGPT）無法單卡裝載。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

將當前最先進 LLM 的內存需求，與 GPU 的顯存容量進行對比。圖片來源：ChatGPT

低效調度——先到先得

LLM 通常需要同時處理多個請求。這會導致短請求（例如詢問天氣、時間或簡短的回答）被迫等待長請求完成。那么，平均響應時間幾乎完全由等待時間主導，而非實際計算時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

你更快，但必須等待之前的請求先處理完。圖片來源：ChatGPT

Sequential Decoding（按順序進行解碼）

生成 token 時無法輕松實現并行處理。每次前向傳播只能產生一個 token（或一個小 batch）。當我們向 ChatGPT 請求長回復時，輸出內容往往是逐詞生成的。這就是為什么“流式輸出”（streaming output）的用戶體驗并不比等待完整答案一次性輸出更差。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

逐步進行解碼。圖片來源：ChatGPT

KV Cache 增長

注意力機制需對整個序列的所有文本進行計算，這是 LLM 的推理過程中最核心且最耗時的操作。有趣的是，每當序列中生成新 token 時，系統會對過去的 token 重復大量相同的計算。鍵值緩存（KV Cache）技術通過存儲前幾步的關鍵信息來加速此過程（使用 KV Cache 可使 T4 GPU 上的 GPT2 推理速度提升 5 倍）。下圖展示了使用緩存與不使用的區(qū)別，但使用緩存也會額外占用內存。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

解碼序列 [token 1, token 2, token 3, token 4] 時的 KV Cache 操作步驟。圖片來源[2]

實驗表明，KV（Key-Value）緩存的使用率在 20.4% 到 38.2% 之間。我用 Qwen-VL 2.0 模型對約 1 萬張圖片生成簡短描述（要求回答少于20字），發(fā)現速度比未使用 KV 緩存的版本快 20%。

這些特性看似棘手，但通過巧妙的工程化手段，反而能轉化為優(yōu)勢。

02 主題 1：巧妙的 KV 緩存管理

Page attention

KV 緩存會占用大量內存。上下文越長，KV 緩存占用的內存越大。 例如，若某 LLM 的輸入長度為 2048 個 token，則需預留 2048 個詞槽（slots）。下圖說明了我提到的情況。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

在圖中，2048 個詞槽被一個包含 7 個單詞的提示詞（“four, score, and, seven, years, ago, our”）占用了，后續(xù)生成的 4 個單詞（“fathers, brought, forth, ”）占用了第 8-11 個詞槽。這意味著仍有 2038 個詞槽被保留，但從未被使用過，這就產生了內存的內部碎片（internal fragmentation）。

每個推理步驟都會生成鍵值對（KV pairs），在使用注意力機制時必須緩存這些數據。KV 緩存通常以連續(xù)的塊（chunks）或頁（pages）的形式分配在內存中。當序列生成完成并釋放內存頁后，已釋放的頁可能不再連續(xù)。后續(xù)序列所需的內存大小可能無法恰好匹配現有空閑塊，導致內存中散布小型的空閑塊——即外部碎片（external fragmentation）。

受操作系統的內存管理啟發(fā)，Page Attention 機制也將數據組織為邏輯內存塊（logical memory block），并通過頁表（page table）進行監(jiān)控，再將合適的頁（page）映射到物理內存中。具體實現如下：

1) Fixed-size Blocks（固定大小的內存塊） ：PagedAttention 分配固定大小且相對較小的內存塊（稱為“頁（pages）”）來存儲 KV 緩存。

2) Shared Blocks（共享內存塊） ：這些固定大小的內存塊可在不同請求間共享。

3) On-demand Allocation（按需進行分配） ：隨著生成過程逐步分配內存塊，無需根據最大序列長度的估算預先分配。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

LLM 中的分頁機制示意圖。Image by the author

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

支持多請求間共享內存塊的 LLM 分頁機制示意圖。Image by the author

Raddix tree KV cache

在計算機科學中，基數樹（radix tree，亦稱 radix trie、compact prefix tree 或 compressed trie）是一種優(yōu)化了空間效率的字典樹（前綴樹），其將每個唯一的子節(jié)點與其父節(jié)點合并。

Raddix tree KV cache 是一種支持跨不同推理請求高效復用鍵值（KV）緩存的技術，尤其適用于多個請求共享共同前綴的場景。 通過將 KV 緩存組織為 Raddix 樹結構，可高效檢索緩存數據并在請求間共享。在下面的例子中，三個請求共享相同的前綴 "ABC"（存儲于父節(jié)點中），每個請求中的最后一個單詞則分別存儲在三個葉子節(jié)點。需注意：樹結構的運行時間復雜度為 O(nlogn)，遠低于注意力計算的 O(n2)。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Raddix tree KV cache 示例

Compressed attention

多頭注意力機制（Multi-head Attention）[3]是 Transformer 模型（LLMs 的基石）的核心機制。每個注意力頭從不同視角分析文本：其中一個注意力頭關注主謂關系，另一個注意力頭解析詞匯特征，第三個注意力頭分析句子結構。這種多頭機制雖增強了模型的理解能力，但也導致每個注意力頭需要獨立的 KV 對。在實時文本處理或長序列場景中，這些獨立的 Key 和 Value 會占用大量內存。

分組查詢注意力機制（Group Query Attention, GQA）允許多個查詢（queries）共享同一組 Key 和 Value，從而減少所需 KV 對數量。多查詢注意力機制（Multi Query Attention, MQA）則更為激進，僅用一組 KV 對服務所有查詢（queries）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

多頭注意力、多查詢注意力、分組查詢注意力對比圖

中國 AI 初創(chuàng)公司深度求索（DeepSeek）今年初發(fā)布了其 chatbot。該產品以高效、開源著稱，人們傳言他們的成功源于對 ChatGPT 生成數據的分析工作。然而，閱讀了他們的技術報告后，我發(fā)現其技術突破不僅僅局限于數據提取操作。DeepSeek 提出的 Flash Multi Latent Attention（Flash MLA）通過低秩壓縮將 Key 和 Value 向下投影到更小維度的 latent vector 中，大幅減小了緩存體積。計算注意力時再將 latent vector 向上投影，且上投影矩陣權重與查詢矩陣權重"折疊"融合，進一步加速了注意力的計算。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

多頭潛在注意力機制（MLA）示意圖。Image by the author

03 主題 2：Query-sparsity attention

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

從 MIT 研究人員撰寫的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》[4]中，我們得知 Transformer 模型在推理過程中（尤其是注意力計算環(huán)節(jié)）常存在高稀疏性「譯者注：high sparsity，大部分神經元或注意力權重在計算過程中未被激活（值為零或接近零）」。這意味著大模型中并非全部的神經節(jié)點被激活。通過將高稀疏性（high sparsity）的特性應用于剪枝機制（pruning mechanism），我們能夠發(fā)現一種高效運行大模型的方法。下圖展示了 Transformer 模型各層的稀疏性統計數據。遺憾的是，第 3 層之后的模型層通常非常稀疏。極端情況下，某些模型層（如第 10 層）甚至達到了 100% 稀疏，這種現象等同于在運行大語言模型時多次乘以 0，從而產生零值輸出。

出現這種現象的原因很簡單：并非每個單詞都對當前上下文有貢獻。

例如，給定提示詞："A is B. C is D. A is"，模型應生成 "B"。這意味著只需要最關鍵的 token，而這很大程度上取決于查詢（queries）。因此該技術被命名為查詢感知的稀疏性算法（query-aware sparsity）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Transformer 模型推理中的稀疏性估算。圖片來源[5]

了解這一特性后，QUEST 的核心策略就是定位對注意力計算最關鍵的數據塊。QUEST 將找出前 K 個數據塊。其算法流程直觀清晰（見下圖）：

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

QUEST 獲取 top K 個關鍵數據塊進行注意力計算的流程

首先，對于每個數據塊，QUEST 會找出最小和最大鍵值（minimum and maximum keys）及其通道尺度上的數值（channel-wise values）。接著，query 會逐個元素地生成最大和最小鍵值。這種方法能夠大大減少所需的計算量 —— 即使 query 的符號（sign）變化，后續(xù)的乘積運算通常仍能得到最大值：當 query 符號為負時，乘以最小值必然得到最大輸出值，反之亦然。在獲取每個數據塊的最大值后，QUEST 僅篩選出與 query 最相關的 K 個關鍵 KV 塊。通過這一流程，計算量得以大幅降低。

最后一個關鍵問題是選擇恰當的 K 值，以避免模型性能下降。K 是一個需要通過實驗才能確定的超參數（hyperparameter）。在論文中，作者建議選擇 K=4096，可使模型性能保持在接近 100% 的水平。

以下是 K=4096 時的數據：

PG19（一種教科書數據集）上的準確率 ≈ 完全達到了全局注意力（Full Attention）的基準準確率
passkey retrieval 數據集上準確率 ≈ 100%
LongBench 任務上的準確率 ≈ 在多數數據集上等效于全緩存（full cache）

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

04 主題 3：推測解碼

推測解碼（speculative decoding）對于大語言模型（LLM）推理的加速非常重要，該技術由 Andrej Karpathy[6] 提出，并由 Google 在 2022 年首次引入[7]。

該技術的核心思想非常簡單：

與其僅用龐大、緩慢但精確的模型（稱為 target model）逐詞生成，不如先用小型、快速但不太準確的模型（通常稱為 draft model）快速"推測"后續(xù)的多個 token。然后用大型模型驗證這些猜測的 token。若大型模型認同小型模型的預測，則一次性接受所有結果（減少計算量）。如若不一致，就從分歧點開始回退（重新執(zhí)行）。示意圖如下文所示。

draft model 可以是 Ngrams、1B 參數級別的模型，最高可達 3B 參數級別的模型。target model 則可以是數十億甚至數萬億參數規(guī)模的模型。

雖然使用兩個模型會消耗較多內存，且重復生成過程也比較耗時，但該技術的核心價值在于其卓越的實用性 —— 連 Gemini 這樣的頂級模型都已采用該技術（如下圖所示）。實際情況是，draft model 生成的 token 通常正確率很高，以至于 target model 無需修正結果。這是因為在現實語境中常見詞匯如"yes, this, is, and so on"出現頻率極高，即使小型語言模型也能輕松預測。通過并行驗證 draft model 生成的所有 token，而非逐詞進行自回歸解碼，這樣可以節(jié)省大量時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

05 主題 4：權重調度

調度（Scheduling）的核心在于將模型權重平衡分配到物理機器的資源（包括 GPU、CPU 和硬盤）中。這種策略不僅能通過并行計算加快推理速度，還能讓 100B 參數級別的超大型模型在僅配備有 T4 GPU 的低配置 PC 上運行。

實現這一目標的關鍵在于兩個核心要素：

在 GPU、CPU 和硬盤間智能地加載/卸載模型權重
高效處理計算單元間的 I/O 數據傳輸

Flexgen

由 Stanford、UC Berkeley 和 CMU 聯合提出的 Flexgen[8]，正是解決這兩個關鍵問題最具創(chuàng)新性的方案之一。

推理過程通常如下圖所示。需要處理的每個數據塊被定義為加載到模型層的一批數據，其中列方向按批次處理的，行方向則按照模型層維度處理。

我們定義有效路徑為滿足以下約束條件的遍歷（即計算）所有方格的路徑：

從左向右執(zhí)行
所有數據必須位于同一設備
當前方塊的激活值（Activation）需要等待其右側相鄰方塊完成計算后，才能被釋放或復用
KV Cache需存儲至最右側數據計算完成時釋放
任意時刻設備上存儲的張量總大小不得超過該設備內存容量

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

如果我們有 n 個 token，每個 token 的數據將按順序加載和計算。每一層的權重僅在需要計算時加載，并在計算結束后立即卸載。由于 GPU 的計算速度極快（如閃電），而內存?zhèn)鬏斔俣葮O慢（如蝸牛），頻繁的加載/卸載會帶來巨大時間開銷。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

圖中每個方塊表示 GPU 對一個模型層（layer）的批處理計算（batch computation），同色方塊共享同一層的權重參數

Flexgen 通過將行掃描改為列掃描或之字形塊調度（zig-zag block schedule）進行優(yōu)化：在無 I/O 開銷的情況下保留模型層權重，并為下一列保存激活值。在計算塊執(zhí)行期間，Flexgen 實現三大操作的并行執(zhí)行：加載下一層權重、存儲前一數據批次的激活值/KV 緩存、執(zhí)行當前數據批次的計算，從而有效解決內存?zhèn)鬏攩栴}。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

Flexgen 的另一個核心創(chuàng)新在于模型權重的硬件分布策略。

Flexgen 采用線性規(guī)劃策略搜索法（Linear Programming Policy Search）來尋找最優(yōu)加載配置，使模型整體推理時間最小化。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

其中：

n：每個序列輸出 token 的數量
??：transformer 層數
block size：每個計算塊處理的樣本量（數據批次大小 × 數據批次數量）

下圖展示了 Flexgen 在搭載了 T4 GPU 的機器上運行 OPT-30B 模型的配置示例。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

論文對比了 HuggingFace 的 DeepSpeed 庫和 Accelerate 庫的性能：Flexgen 聲稱能達到 7.32 tokens/秒，而 DeepSpeed 為 1.57 tokens/秒，Accelerate 僅 0.62 tokens/秒。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

06 主題 5：系統級優(yōu)化

現有 LLM serving 系統（如 vLLM、Orca）通常采用先到先服務（FCFS，First-Come-First-Serve）機制和執(zhí)行到完成為止（run-to-completion）的運行方式，這會導致隊頭出現阻塞（HOL） —— 簡單來說：長任務會延遲短任務的處理。這就造成了較高的排隊延遲，在實際工作負載中可達總延遲的 90%。 請看論文 FastServe[9] 中的統計數據：

注意：當我們提及長請求/短請求時，并非指提示詞（prompt）的長度，而是指生成首個 token 所需的時間。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

time by execuation vs queuing. Image source[9]

該問題的解決方案是：允許中斷長請求，將已完成的部分存入緩存，保留未完成的部分稍后處理，然后切換至短請求。待短請求完成后，繼續(xù)運行長請求的剩余部分。此方案需實現具有多個不同優(yōu)先級的隊列（multi-queue）。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

但這一想法仍然存在一個問題：若高優(yōu)先級隊列中存在多個長請求位于短請求之前，可能導致長請求被多次中斷才切換到短請求。這不僅增加長請求的處理時間，還會對緩存造成額外壓力。

FastServe 通過引入跳轉式多級反饋隊列（Skip-Join MLFQ）來解決這個問題：當系統收到請求時，會預估生成首個 token 所需的時間，據此將請求路由至合適優(yōu)先級的隊列，避免干擾更短請求。此外，通過 KV 緩存管理，可在 GPU 處理先前的隊列時主動在隊列間遷移數據，進一步降低延遲。

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

07 其他主題

還有很多其他優(yōu)化 LLM 推理的技術方向，本文不再詳述（因為這些技術方向非常常見，許多工程師每天都在使用），僅列舉技術方向與參考文獻：

量化（Quantization）

通過降低權重和激活值的精度（如從 FP16 降至 INT4 或 FP8）壓縮模型體積并提升推理速度，同時將精度損失降到最小。

AWQ

通過激活值計算每個權重/通道的重要性分數進行基于激活值感知的權重量化。支持低比特推理（如 INT3）且無需重訓練。

LLM.int8()

提出通過校準過程（Calibration）實現 Post-training INT8 矩陣乘法，支持 Transformer 推理且不會降低精度。

SmoothQuant

通過跨層對齊激活值與權重的數值范圍，提升 post-training 量化效果。

ZeroQuant / V2 / FP

使用校準過程（Calibration）和低秩補償（Low-rank Compensation）的低比特量化技術（INT4, FP4）。

LLM-FP4

證明 FP4 表示法可在顯著提升推理速度的同時保持模型質量。

WINT8

針對生產環(huán)境中的 MoE 模型的 INT8 量化方案。

SpQR

將模型量化與 sparsity 相結合，實現近乎無損的 LLM 壓縮，適用于邊緣部署。

FP8-LM

使用 FP8 格式訓練 Transformer，降低訓練與推理過程的內存和算力消耗。

FP8 Formats

定義 NVIDIA 的 FP8 格式及其在深度學習推理/訓練中的應用。

Early Exit Inference

LITE

在神經網絡的中間層添加預測能力，當置信度較高時，token 會提前退出，最高可節(jié)省 38% FLOPS。

注意力機制優(yōu)化（Attention Optimization）

FlashAttention 1, 2, 3

通過內存分塊實現快速、精確的注意力計算，速度與內存效率優(yōu)于標準實現方式。

ROFormer

引入旋轉位置編碼（Rotary Position Embedding），提升模型對長程依賴關系的泛化能力。

StreamLLM

允許注意力在流式處理過程中動態(tài)適配新的輸入塊。

非自回歸的 LLM（Non-autoregressive LLMs）

Diffusion-LM: Improving Controllable Text Generation

將擴散模型應用于文本生成的首個重要工作。

08 如何應用這些技術

vLLM[10] 是一個開源庫，能夠大大提升大語言模型（LLM）推理（運行模型）的速度和效率。

它由 UC Berkeley 的研究者開發(fā)，專注于實現 LLM 的高吞吐、低延遲服務。該庫最初基于 PageAttention 的核心思想，但如今已整合了前文提及的絕大多數優(yōu)化技術。在我看來，vLLM 已成為大模型推理優(yōu)化領域生態(tài)最活躍的開源社區(qū)之一。

以下是我使用 vLLM 調用 QwenVL 2.5 7B instruct 模型對圖片進行描述的示例代碼：

大語言模型推理優(yōu)化技術綜述（The Art of LLM Inference）-AI.x社區(qū)

感謝你閱讀本文！這是我以 Fatima Fellowship 身份開展的研究工作，我與 Colorado School of Mines[11] 的 PhD candidate Ismet Dagl 博士合作，專注于提升邊緣設備上大語言模型（LLM）、視覺語言模型（LVM）及基礎模型的性能與內存優(yōu)化。

About the author

Trung Thanh Tran

CTO of ClientScan | Co-founder of ??Takenote.ai?? | AI Researcher | | Data Scientist at Pixta Vietnam | IGI AI Book Writer

END

本期互動內容 ??

?在您的工作中，最希望出現哪種“開箱即用”的推理優(yōu)化工具？歡迎在評論區(qū)分享~

文中鏈接

[1]??https://developer.nvidia.com/blog/accelerating-inference-with-sparsity-using-ampere-and-tensorrt/??

[2]??https://media.licdn.com/dms/image/v2/D5622AQEd3w_266T-cg/feedshare-shrink_2048_1536/feedshare-shrink_2048_1536/0/1708872868565?e=1748476800&v=beta&t=-USDPQAiDwF6OGy-BC8y9mHf4nW_W3qr-QL3ZT08ynk??

[3]??https://d2l.ai/chapter_attention-mechanisms-and-transformers/multihead-attention.html??

[4]??https://arxiv.org/abs/2406.10774??

[5]??https://medium.com/r?url=https%3A%2F%2Farxiv.org%2Fabs%2F2406.10774??

[6]??https://x.com/karpathy/status/1697318534555336961?lang=en??

[7]??https://arxiv.org/pdf/2211.17192??

[8]??https://arxiv.org/pdf/2303.06865??

[9]??https://arxiv.org/pdf/2305.05920??

[10]??https://docs.vllm.ai/en/latest/index.html??

[11]??https://cs.mines.edu/??

本文經原作者授權，由 Baihai IDP 編譯。如需轉載譯文，請聯系獲取授權。

原文鏈接：

??https://blog.gopenai.com/the-art-of-llm-inference-fast-fit-and-free-c9faf1190d78??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LLM 推理優(yōu)化

贊

收藏

回復

舉報

回復

相關推薦

騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 5323瀏覽 ? 0回復
綜述：大語言模型在信息抽取上的應用

xuxiangda ? 7349瀏覽 ? 0回復
【LLM】對大語言模型微調優(yōu)化的研究

sbf_2000 ? 5365瀏覽 ? 0回復
大模型思維鏈推理的綜述：進展、前沿和未來

AIRoobt ? 8929瀏覽 ? 0回復
大語言模型知識沖突的綜述

sbf_2000 ? 6275瀏覽 ? 0回復
AI技術新前沿本地LLM模型推理訓練加速

AIGC觀察者 ? 5180瀏覽 ? 0回復
幾何視角下的大語言模型推理

sbf_2000 ? 4101瀏覽 ? 0回復
大語言模型在不同自然語言處理任務中的提示工程方法綜述

sbf_2000 ? 5502瀏覽 ? 0回復
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 8977瀏覽 ? 0回復
一篇大模型NL2SQL全棧技術最新綜述

PaperAgent ? 9923瀏覽 ? 0回復
面向大語言模型的檢索增強生成(RAG)技術：綜述

angel ? 7114瀏覽 ? 0回復
多模態(tài)大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 1.3w瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 7967瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 4890瀏覽 ? 0回復
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內容精選 ? 4101瀏覽 ? 0回復
大語言模型時代的協作策略綜述

AIRoobt ? 5602瀏覽 ? 0回復
萬字綜述 LLM 訓練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 4638瀏覽 ? 0回復
大語言模型增強的文本到 SQL 生成：綜述

AIGC前沿技術追蹤 ? 4325瀏覽 ? 0回復
一篇多模態(tài)大模型推理技術最新綜述

PaperAgent ? 5604瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？ 3天前發(fā)布
分享一名海外獨立開發(fā)者的 AI 編程工作流 5天前發(fā)布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現堪稱性價比之王！ 0回復

上一篇：「DeepSeek 技術解析」：LLM 訓練中的強化學習算法

下一篇：對 AI Agent 定義的一些探討

社區(qū)精華內容

目錄

国产超碰91| 男女性高潮免费网站| 亚洲香蕉av在线一区二区三区| 日韩高清欧美| 日本三级中文字幕| 欧美日韩国产一级片| 久久99国产精品久久99大师| 日韩精品无码一区二区三区久久久| 久久亚洲成人精品| 日本成人在线视频网站| 国产成人无码一区二区三区在线| 国产欧美日韩高清| 久久久国际精品| 中文av在线全新| 加勒比精品视频| 午夜剧场成人观在线视频免费观看| 男人的天堂久久精品| 亚洲av毛片成人精品| 极品粉嫩国产18尤物| 日韩欧美aaaaaa| 伊人久久亚洲| av黄色免费网站| 91精品国产高清自在线| 97久久超碰国产精品| 美女一区网站| 国产白丝一区二区三区| 国产欧美日韩91| 综合中文字幕亚洲| 成人线上播放| 少妇人妻好深好紧精品无码| 国产精品欧美久久久| 国产精品你懂的| 日韩经典av| 亚洲天堂av网站| 国产精品成人播放| 国产精品一卡二卡| 欧美aaaaa性bbbbb小妇| 欧美特级aaa| 欧美激情a在线| 国产欧美一区二区三区鸳鸯浴| 国产精品第一| 男人的天堂一区二区| 日本一区不卡| 精品国产伦一区二区三区观看方式| 黄页网站一区| 久cao在线| 国产成人无码精品久久二区三| 国产精品丝袜久久久久久高清| 亚洲黄色小视频| 妖精视频一区二区三区| 国产精品免费无遮挡| 天堂а√在线中文在线| 亚洲欧美在线磁力| 国产经典欧美精品| 欧美黄页免费| 亚洲永久精品一区| 黄色av免费在线播放| 日韩欧美激情四射| 青娱乐精品视频在线| 黄视频免费在线看| 国产亚洲精品久久久久久无几年桃| 欧美一级二级三级| 精品视频在线导航| 久久亚洲影视婷婷| 国产麻豆精品久久| 国产福利第一视频在线播放| 欧美精品欧美极品欧美激情| 国产精品乱码视频| 精品精品国产高清一毛片一天堂| 国产一二精品视频| 一区二区网站| 色久视频在线播放| 欧美偷拍一区二区三区| 快播日韩欧美| 在线亚洲国产精品网| 国产片一区二区三区| 日韩欧美一区免费| 污网站在线免费看| 亚洲欧美日韩综合| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 亚洲精品一区二区网址| 国产调教视频一区| 中文字幕一区二区三区在线视频 | 91丨九色丨海角社区| 成人性做爰aaa片免费看不忠| 国产成人激情小视频| 678五月天丁香亚洲综合网| 国产a区久久久| 欧美人妖在线| xxx.xxx欧美| 伊人免费在线观看| 久久在线中文字幕| 午夜精品福利电影| 欧美日韩免费不卡视频一区二区三区| 国产美女精品在线| 九一成人免费视频| 午夜伦理大片视频在线观看| 日韩人妻无码一区二区三区99| 中文字幕有码av| 久久久国产精品一区二区三区| 中文字幕亚洲一区| 精品久久久免费| 成人午夜免费电影| 91成人免费| 蜜芽在线免费观看| 国产精品va无码一区二区三区| 天堂av.com| 91亚洲精品一区| 中文字幕免费国产精品| 丁香五六月婷婷久久激情| 国产精品影视网| 中文字幕人成人乱码| 91成人短视频在线观看| 亚洲天堂自拍偷拍| 中国美女乱淫免费看视频| 奇米影视亚洲色图| 国产精品久久国产精品| 久久久人成影片一区二区三区| 91麻豆精品国产91久久久资源速度| 欧美国产欧美综合| 亚洲国产精品久久久久蝴蝶传媒| 欧美视频免费看| 蜜桃视频网站在线| www.久久精品.com| 日韩男人的天堂| 免费一级做a爰片久久毛片潮| 亚洲色精品三区二区一区| 亚洲国产成人不卡| 99re在线播放| 清纯唯美日韩制服另类| 亚洲最大在线视频| 91精品在线一区二区| 亚洲sss视频在线视频| 久久久欧美精品sm网站| 精品在线亚洲视频| 欧美大胆a级| 久久91导航| 成人福利片网站| 色视频精品视频在线观看| 精品成人无码久久久久久| 国产精品麻豆一区| 亚洲国产精品自拍视频| 五月天亚洲视频| www.avtt| 男插女免费视频| 国产mv免费观看入口亚洲| 久久香蕉国产线看观看av| 亚洲美女在线视频| 精品欧美乱码久久久久久1区2区 | ts人妖另类在线| 国产精品国产三级国产aⅴ浪潮| 美女精品视频一区| 欧美日韩中文一区| 欧美性猛交xxxxx水多| 亚洲午夜久久久久久久久电影网 | 国产另类自拍| 91老司机在线| 成人性生交大片免费看视频直播 | 久久精品电影网站| 在线观看日韩欧美| 国产亚洲福利一区| 亚洲欧美另类自拍| 亚洲人精品午夜在线观看| 日韩av最新在线观看| 欧美大片在线观看一区| 欧美第一区第二区| 亚洲成人999| 亚洲精品福利资源站| 亚洲国模精品一区| 亚洲国产成人一区| 日韩激情在线视频| 日韩av在线看| 亚洲国产精品嫩草影院久久| 亚洲护士老师的毛茸茸最新章节 | 亚洲国产精品久久久久秋霞影院| 亚洲美女免费在线| 亚洲天堂成人网| 一区二区三区四区中文字幕| 亚洲综合激情网| 成人高清av在线| 久久亚洲综合色| 中文字幕亚洲不卡| 亚洲第一狼人社区| 在线观看成人免费视频| 欧美欧美欧美欧美首页| 欧美一二三区在线观看| 日韩成人xxxx| 久久精品国产欧美激情| 韩国美女主播一区| 国产主播欧美精品| 欧美在线视频在线播放完整版免费观看| 5566日本婷婷色中文字幕97| 国产精品三级在线| 99在线观看| 影音先锋欧美资源| 国产精品50p| 青娱乐自拍偷拍| 国产精欧美一区二区三区白种人| www.com日本| 色老板免费视频| 中文字幕av片| 全色精品综合影院| sm捆绑调教国产免费网站在线观看| 色婷婷综合久久久中字幕精品久久 | 国产九九精品视频| 日韩精品久久一区二区三区| 欧美激情视频免费看| 国产人妻精品久久久久野外| 黄色av免费在线播放| 免费无码一区二区三区| 免费在线观看亚洲| 性生活黄色大片| 亚洲性图自拍| aaa国产精品| 伊人天天综合| bt欧美亚洲午夜电影天堂| 一级特黄大欧美久久久| 777精品伊人久久久久大香线蕉| 这里只有精品久久| 国产精品第一区| 性欧美18一19内谢| www.色.com| 中文在线观看免费网站| 欧美自拍第一页| 黄色国产在线| 国产a亚洲精品| 综合视频在线| www.亚洲精品| 日本福利一区二区| 久久精品成人欧美大片| 国产精品久久久久久久久久直播| 欧美精品久久久久久久自慰| 亚洲黄色在线网站| 国产男女猛烈无遮挡在线喷水| 久久久久久久久97| 久草视频视频在线播放| 中文成人激情娱乐网| 欧美日韩免费| 国产精品天干天干在观线| 欧美一级淫片007| 国产成人拍精品视频午夜网站| 一区二区精品视频| 中文字幕在线永久| 国产女无套免费视频| 亚洲欧洲自拍| 激情久久一区| 亚洲精品中文在线观看| 亚洲男人天堂九九视频| 国产精品免费区二区三区观看 | 97最新国自产拍视频在线完整在线看| 色悠久久久久综合先锋影音下载| 国产精品嫩草影院在线看| 国产一区二区三区四区在线观看| 欧美体内谢she精2性欧美| 色综合天天狠天天透天天伊人| 日韩视频精品| 亚洲自拍偷拍一区二区| 五月婷婷在线播放| heyzo欧美激情| 国产一区二区三区免费看| 欧美视频一二三区| 国产精品第100页| 三上悠亚av一区二区三区| www五月天com| 亚洲综合av一区二区三区| 日本美女一区二区三区视频| 色综合天天综合网天天看片| 日韩精品小视频| 蜜桃导航-精品导航| 波多野结衣a v在线| 毛片网站在线观看| 精品日产免费二区日产免费二区| 久久精品夜色噜噜亚洲aⅴ| 亚洲图片欧美日产| 中文字幕中文字幕99| 欧美h片在线观看| 国产极品人妖在线观看| 99国产精品久久久久久久| 亚洲午夜私人影院| 国产成人综合精品| 想看黄色一级片| 午夜18视频在线观看| 欧美在线三级| 91成人国产| 99视频精品免费视频| 在线观看av一区二区| 蜜臀久久99精品久久久无需会员 | 一区二区三区在线免费| 亚洲曰韩产成在线| 欧美刺激性大交免费视频| 国产女主播av| 国产极品美女高潮无套嗷嗷叫酒店| 九色porny自拍视频在线观看| av不卡在线| 欧美日韩国产天堂| 99久久精品免费看国产四区| 污污内射在线观看一区二区少妇| 日韩精品123| 亚洲精品一区二区妖精| 一个色在线综合| 久久久久www| 国产精品一色哟哟| 在线免费观看一级片| 伊人久久综合影院| 一区二区三区欧美视频| 国产综合久久久久久| 男人的天堂官网| 欧美不卡高清一区二区三区| 99久久精品久久久久久清纯| 色综合老司机第九色激情 | 无套内谢的新婚少妇国语播放| 亚洲xxx拳头交| 欧美精品粉嫩高潮一区二区| 亚洲免费视频一区| 在线观看av大片| 色综合咪咪久久网| 6080日韩午夜伦伦午夜伦| 一区二区欧美日韩| www.97av| 亚洲日本免费| 亚洲人高潮女人毛茸茸| 男女无套免费视频网站动漫| 国产精品欧美激情| 国产精品久久久久久av公交车| 椎名由奈av一区二区三区| 91久久精品一区| 日产欧产va高清| 精品国产一区二区三区| 在线不卡免费av| 成人性免费视频| 第一福利在线| 国产乱码字幕精品高清av| 午夜精品一区二区三区在线播放| 精品夜夜澡人妻无码av| 日韩精品麻豆| 亚洲电影一区二区| 日韩久久久久久久| 性做久久久久久久久久| 亚欧美中日韩视频| 欧美一区二区精品久久911| 欧美亚洲色图视频| 91av资源在线| 91免费视频网| 成人黄视频免费| 亚洲国产无线乱码在线观看| 极品av少妇一区二区| 一区二区三区久久精品| 捆绑裸体绳奴bdsm亚洲| 亚洲精品伦理| 色欧美片视频在线观看| 国产va亚洲va在线va| 欧美成人三区| 久久久91精品国产一区二区精品| 国产嫩草一区二区三区在线观看| 中文精品久久久久人妻不卡| 免播放器亚洲| 亲子乱一区二区三区电影| 黄色一级免费视频| 国模大胆一区二区三区| 美女少妇精品视频| 青娱乐在线视频免费观看| 在线精品国产| 欧美激情精品在线| 日本天堂网在线观看| 亚洲天堂激情| 91精品国产精品| 日韩人妻精品中文字幕| 视频一区二区三区在线| 在线观看欧美www| 国产aaaaaaaaa| 一区二区电影在线观看| 成人97在线观看视频| 久久精品免费在线| 国产美女一区| 国产日韩精品视频| 国产视频一区二区三| av电影在线观看一区| 蜜桃导航-精品导航| 毛片网站在线免费观看| 亚洲一级电影视频| 白嫩少妇丰满一区二区| 日韩国产一二三区| 亚洲高清福利视频| 福利视频第一页| 伊人精品视频| 国产精品91一区| 香蕉免费毛片视频| 美女久久久精品| 国产精品香蕉视屏| 亚洲国产一二三区| 国产精品区一区二区三| 天天做天天爱天天高潮| 牛牛在线精品视频| 色婷婷精品大在线视频| 三上悠亚电影| 亚洲另类春色校园小说| 欧美成年人网站| 黄色网址中文字幕| 国产精品99久久不卡二区| 午夜精品亚洲一区二区三区嫩草|

<tr id="ck2mo"></tr>