精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構

發布于 2025-9-12 07:21
瀏覽
0收藏

博客文章(Inside vLLM: Anatomy of a High-Throughput LLM Inference System)深度解析了vLLM的內部架構,我簡單整理了一下

LLM引擎和引擎核心

LLM引擎是vLLM的基礎構建塊。單獨而言,它已經能夠實現高吞吐量推理——但僅限于離線設置。

使用以下離線推理代碼片段作為示例:

from vllm import LLM, SamplingParams


prompts = [
    "Hello, my name is",
    "The president of the United States is",
]


sampling_params = SamplingParams(temperature=0.8, top_p=0.95)


def main():
    llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
    outputs = llm.generate(prompts, sampling_params)


if __name__ == "__main__":
    main()


LLM引擎構造函數

引擎的主要組件包括:

?vLLM配置:包含所有用于配置模型、緩存、并行性等的參數

?處理器:通過驗證、分詞和處理將原始輸入轉換為EngineCoreRequests

?引擎核心客戶端:在我們的示例中使用InprocClient

?輸出處理器:將原始EngineCoreOutputs轉換為用戶看到的RequestOutput

引擎核心本身由幾個子組件組成:

?模型執行器:驅動模型的前向傳播

?結構化輸出管理器:用于引導解碼

?調度器:決定哪些請求進入下一個引擎步驟,包含:

     –策略設置(FCFS或優先級)

     –等待和運行隊列

     –KV緩存管理器——分頁注意力的核心


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

KV緩存管理器維護一個free_block_queue——可用KV緩存塊的池(通常有數十萬個,取決于VRAM大小和塊大小)。

標準transformer層的塊大小計算如下:

2 * block_size (默認=16) * num_kv_heads * head_size * dtype_num_bytes (bf16為2)


在模型執行器構建期間,創建Worker對象,并執行三個關鍵程序:

1.初始化設備:

–分配CUDA設備并檢查模型數據類型支持

–驗證是否有足夠的VRAM可用

–設置分布式設置

2.加載模型:

–實例化模型架構

–加載模型權重

–調用model.eval()

–可選:對模型調用torch.compile()

3.初始化KV緩存:

–獲取每層KV緩存規范

–運行虛擬/分析前向傳播并獲取GPU內存快照

–分配、重塑并綁定KV緩存張量到注意力層

–準備注意力元數據

–捕獲CUDA圖以提高延遲

Generate函數

第一步是驗證并向引擎提供請求。對于每個提示:

1.創建唯一的請求ID并記錄到達時間

2.調用輸入預處理器對提示進行分詞

3.將此信息打包到EngineCoreRequest中

4.將請求傳遞到引擎核心,設置狀態為WAITING

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

接下來,只要有請求需要處理,引擎就會重復調用其step()函數。每個步驟有三個階段:

1.調度:選擇在此步驟中運行哪些請求(解碼和/或預填充)

2.前向傳播:運行模型并采樣令牌

3.后處理:將采樣的令牌ID附加到每個請求,去分詞,并檢查停止條件

停止條件包括:

?請求超過其長度限制

?采樣的令牌是EOS ID

?采樣的令牌匹配任何stop_token_ids

?輸出中存在停止字符串

調度器

推理引擎處理兩種主要的工作負載類型:

?預填充請求——對所有提示令牌的前向傳播。這些通常是計算密集型的

?解碼請求——僅對最近令牌的前向傳播。所有較早的KV向量已經被緩存。這些是內存帶寬受限的

V1調度器可以在同一步驟中混合兩種類型的請求,這是更智能的設計選擇。

調度器優先處理解碼請求——即已經在運行隊列中的請求。對于每個這樣的請求:

1.計算要生成的新令牌數量

2.調用KV緩存管理器的allocate_slots函數

3.通過減去令牌數量來更新令牌預算

之后,它處理來自等待隊列的預填充請求。

allocate_slots的功能:

1.計算塊數量——確定必須分配多少個新的KV緩存塊

2.檢查可用性——如果管理器池中沒有足夠的塊,則提前退出

3.分配塊——通過KV緩存管理器的協調器從塊池中獲取前n個塊

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片


運行前向傳播

調用模型執行器的execute_model,主要步驟:

1.更新狀態——從input_batch中修剪已完成的請求

2.準備輸入——從CPU→GPU復制緩沖區;計算位置;構建slot_mapping

3.前向傳播——使用自定義分頁注意力內核運行模型。所有序列被扁平化并連接成一個長的"超級序列"

4.收集最后令牌狀態——提取每個序列最終位置的隱藏狀態并計算logits

5.采樣——根據采樣配置從計算的logits中采樣令牌

前向傳播步驟有兩種執行模式:

?急切模式——啟用急切執行時運行標準PyTorch前向傳播

?"捕獲"模式——當不強制急切時執行/重播預捕獲的CUDA圖

高級特性——擴展核心引擎邏輯

接下來我們深入了解:

分塊預填充

分塊預填充是通過將預填充步驟分成更小的塊來處理長提示的技術。如果沒有它,我們可能會遇到單個很長的請求獨占一個引擎步驟的情況,從而阻止其他預填充請求運行。

例如,讓每個塊包含n(=8)個令牌。執行P的完整預填充將需要≥3個引擎步驟,只有在最后的分塊預填充步驟中我們才會采樣一個新令牌。

在vLLM V1中,通過將long_prefill_token_threshold設置為正整數來啟用分塊預填充。

vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

前綴緩存

前綴緩存避免重新計算多個提示在開頭共享的令牌。

關鍵在于long_prefix:定義為任何長于KV緩存塊(默認16個令牌)的前綴。

工作原理:

1.在第一次generate調用期間,引擎調用hash_request_tokens:

–將long_prefix + prompts[0]分成16令牌塊

–對于每個完整塊,計算哈希

–每個結果存儲為包含哈希和其令牌ID的BlockHash對象

2.引擎調用find_longest_cache_hit檢查這些哈希是否已存在于cached_block_hash_to_block中

3.在第二次具有相同前綴的generate調用中,find_longest_cache_hit找到所有n個塊的匹配。引擎可以直接重用這些KV塊

前綴緩存默認啟用。要禁用它:enable_prefix_caching = False。

引導解碼(FSM)

引導解碼是一種技術,在每個解碼步驟中,logits被基于語法的有限狀態機約束。這確保只能采樣語法允許的令牌。

示例代碼:

from vllm.sampling_params import GuidedDecodingParams


guided_decoding_params = GuidedDecodingParams(choice=["Positive", "Negative"])
sampling_params = SamplingParams(guided_decoding=guided_decoding_params)


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

vLLM中的工作原理:

1.在LLM引擎構建時,創建StructuredOutputManager

2.添加請求時,狀態設置為WAITING_FOR_FSM,語法異步編譯

3.在調度期間,如果異步編譯完成,狀態切換到WAITING

4.在前向傳播產生logits后,使用位掩碼將不允許的logits設置為-∞

5.采樣下一個令牌后,通過accept_tokens推進請求的FSM

推測解碼

在自回歸生成中,每個新令牌都需要大型LM的前向傳播。推測解碼通過引入較小的草稿LM來加速這一過程。

步驟:

1.草稿:在小模型上運行并便宜地提議k個令牌

2.驗證:在大模型上對上下文+k個草稿令牌運行一次

3.接受/拒絕

 :從左到右遍歷k個草稿令牌:

–如果大模型的概率≥草稿概率,接受它

–否則,以p_large(token)/p_draft(token)的概率接受它

–在第一次拒絕時停止,或接受所有k個草稿令牌

vLLM V1支持更快但不太準確的提議方案:n-gram、EAGLE和Medusa。

示例配置:

speculative_cnotallow={
    "method": "ngram",
    "prompt_lookup_max": 5,
    "prompt_lookup_min": 3,
    "num_speculative_tokens": 3,
}


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片

分離式P/D(預填充/解碼)

預填充和解碼具有非常不同的性能配置文件(計算密集型vs內存帶寬受限),因此分離它們的執行是明智的設計。

在實踐中,我們運行N個vLLM預填充實例和M個vLLM解碼實例,根據實時請求混合自動縮放它們。預填充工作器將KV寫入專用KV緩存服務;解碼工作器從中讀取。


vLLM深度解析:高吞吐量大語言模型推理系統的內部架構-AI.x社區圖片


從UniprocExecutor到MultiProcExecutor

當模型權重不再適合單個GPU的VRAM時,第一個選擇是使用張量并行性(例如TP=8)在同一節點的多個GPU上分片模型。如果模型仍然不適合,下一步是跨節點的流水線并行性。

MultiProcExecutor的工作原理:

1.初始化rpc_broadcast_mq消息隊列

2.構造函數循環遍歷world_size并為每個rank生成守護進程

3.每個工作器設置兩個隊列:

–rpc_broadcast_mq(與父進程共享)用于接收工作

–worker_response_mq用于發送響應

4.工作器進入忙循環,阻塞在rpc_broadcast_mq.dequeue上

5.運行時,MultiProcExecutor將請求入隊到所有子工作器的rpc_broadcast_mq中

分布式系統服務vLLM

假設我們有兩個H100節點,想要在它們上運行四個vLLM引擎。如果模型需要TP=4,我們可以這樣配置節點。

在無頭服務器節點上:

vllm serve <model-name>
  --tensor-parallel-size 4
  --data-parallel-size 4
  --data-parallel-size-local 2
  --data-parallel-start-rank 0
  --data-parallel-address <master-ip>
  --data-parallel-rpc-port 13345
  --headless


vLLM中的工作原理:

在無頭節點上,CoreEngineProcManager啟動2個進程,每個運行EngineCoreProc.run_engine_core。每個函數創建一個DPEngineCoreProc,然后進入其忙循環。

在API服務器節點上,我們實例化一個AsyncLLM對象。內部創建一個DPLBAsyncMPClient。

完整的請求生命周期:

1.請求命中API服務器上的create_completion路由

2.函數異步分詞提示,并準備元數據

3.調用AsyncLLM.generate,最終調用DPAsyncMPClient.add_request_async

4.根據DP協調器的狀態進行負載均衡

5.ADD請求發送到選擇的引擎的input_socket

6.在該引擎處:

–輸入線程解除阻塞,從輸入socket解碼數據

–主線程在input_queue上解除阻塞,將請求添加到引擎

–輸出線程在output_queue上解除阻塞并通過輸出socket發送結果

7.這些結果觸發AsyncLLM輸出異步任務,將令牌傳播回FastAPI的create_completion路由

基準測試和自動調優——延遲vs吞吐量

在最高級別上有兩個競爭的指標:

?延遲——從提交請求到返回令牌的時間

?吞吐量——系統每秒可以生成/處理的令牌/請求數量

延遲和吞吐量競爭的本質變得清晰:隨著批大小B↓趨近于1,ITL下降;隨著B↑趨近于無窮大,ITL上升,但吞吐量提高。

屋頂線模型有助于理解:在飽和批B_sat以下,步驟時間由HBM帶寬主導;超出B_sat,內核變為計算受限,步驟時間大致與B成正比。

如何在vLLM中進行基準測試

vLLM提供vllm bench {serve,latency,throughput} CLI:

?latency:使用短輸入(默認32令牌)和小批次(默認8)采樣128個輸出令牌

?throughput:一次性提交固定的提示集(默認:1000個ShareGPT樣本)

?serve:啟動vLLM服務器并通過從泊松分布采樣請求到達間隔時間來模擬真實世界工作負載

本文轉載自??AI帝國??,作者:無影寺

已于2025-9-12 07:21:41修改
收藏
回復
舉報
回復
相關推薦
欧美高清xxx| 黑人中文字幕一区二区三区| 先锋影音网一区| 午夜少妇久久久久久久久| 国产视频网站在线| 日韩免费电影在线观看| 亚洲女同女同女同女同女同69| 欧美一级成年大片在线观看| 亚洲美女精品视频| 高清免费电影在线观看| 蜜桃av一区二区| 亚洲午夜精品视频| 欧美伦理片在线看| 玖玖综合伊人| 久久久成人网| 亚洲欧洲日产国产网站| 3d动漫一区二区三区| 黄色三级网站在线观看| 国产精品二区影院| 精品国产伦一区二区三区免费| 最新精品视频| 国产伦一区二区| 久久精品久久久| 欧美一二三四在线| 国产片侵犯亲女视频播放| 国产成人精品无码高潮| 欧美日韩精品| 日韩精品一区二区三区蜜臀| 国产精品无码免费专区午夜| h网站视频在线观看| 秋霞午夜鲁丝一区二区老狼| 一本色道久久综合亚洲精品小说 | 久久久久久久久福利| 最新欧美色图| 欧美高清在线一区二区| 国产精品一区久久久| 男女全黄做爰文章| 国产精品亚洲欧美一级在线| 亚洲码国产岛国毛片在线| 欧洲精品国产| 亚洲午夜精品久久久| 小小影院久久| 中文字幕精品av| 亚洲一二三不卡| 超碰在线97国产| 成人性视频免费网站| 91国产精品91| 手机看片福利视频| 亚洲成人毛片| 亚洲影院免费观看| 亚洲xxxxx| 国产精品a成v人在线播放| 婷婷亚洲成人| 亚洲国产91色在线| 九九热免费精品视频| 国产丝袜在线| 99国产精品99久久久久久| 国产91亚洲精品| 岛国毛片在线观看| 亚洲精品888| 美女久久久久久久久久久| 不许穿内裤随时挨c调教h苏绵| 9lporm自拍视频区在线| 国产女主播一区| 福利视频一区二区三区| 亚洲天堂一区在线| 精品日韩一区| 精品国产乱码久久久久久牛牛| 北条麻妃亚洲一区| 日本美女一区| 一区二区三区在线视频观看 | 日韩超碰人人爽人人做人人添| 亚洲丁香久久久| 菠萝菠萝蜜网站| 午夜不卡一区| 欧美一区二区三区视频| 国产裸体舞一区二区三区| a视频在线免费看| 亚洲一区国产视频| 欧美日韩一道本| 国产美女在线观看| 亚洲一区在线电影| 99精品在线免费视频| 午夜精品成人av| 欧美日韩国产影片| 欧美成人免费高清视频| 日本小视频在线免费观看| 国产午夜精品一区二区三区嫩草 | 岳毛多又紧做起爽| 欧美v亚洲v| 1024亚洲合集| 日韩资源av在线| 三级视频在线看| 国产高清视频一区| 国产日韩在线看| 无码人妻熟妇av又粗又大| 一本久道综合久久精品| 欧美高清视频在线| 国产97免费视频| 欧美好骚综合网| 日韩中文字在线| 性欧美精品男男| 欧美69视频| 九九久久久久99精品| 精品国产视频一区二区三区| 日韩电影在线视频| 最近2019年日本中文免费字幕| 免费毛片视频网站| 免费黄色成人| 亚洲色图15p| 欧美在线视频第一页| 免费亚洲视频| 国产99久久久欧美黑人| wwwav网站| 国产成人欧美日韩在线电影| 日本一区高清在线视频| 黄页网站大全在线免费观看| 欧美在线观看视频在线| 丁香婷婷激情网| 国产精品qvod| 日韩av中文字幕在线播放| 91玉足脚交白嫩脚丫| 欧美日韩直播| 亚洲人成电影网站色| 精品爆乳一区二区三区无码av| 国产精品hd| 国产精品永久免费| 你懂得在线网址| 亚洲va韩国va欧美va| 国产精品无码一区二区在线| 视频在线亚洲| 亚洲国产精品va在线看黑人| 日韩成人短视频| 蓝色福利精品导航| 成人影片在线播放| www红色一片_亚洲成a人片在线观看_| 91国偷自产一区二区使用方法| 欧美伦理片在线观看| 亚洲欧洲二区| 日韩欧美中文字幕公布| 欧美肥妇bbwbbw| 国内成人在线| 999日本视频| 亚洲乱色熟女一区二区三区| 99久久99久久精品免费观看| 欧美精品在欧美一区二区| av美女在线观看| 精品精品国产高清一毛片一天堂| 波多野结衣av在线免费观看| 久久社区一区| 国产欧美久久久久久| 第九色区av在线| 欧洲国内综合视频| 在线播放第一页| 欧美特黄a级高清免费大片a级| 91香蕉亚洲精品| 男人的天堂在线免费视频| 欧美日韩国产一区二区| 手机免费看av网站| 婷婷国产精品| 琪琪亚洲精品午夜在线| 国产黄色片免费观看| 亚洲免费av观看| 亚洲精品乱码久久久久久9色| 日本妇女一区| 欧美自拍视频在线| 国产精品免费观看| 欧美在线不卡一区| 欧美h片在线观看| 国产精品综合网| 日本一区二区视频| 国产成人毛片| 国产婷婷97碰碰久久人人蜜臀| chinese全程对白| 国产老肥熟一区二区三区| 青青草综合视频| 丁香久久综合| 欧美日韩福利视频| 视频在线观看你懂的| 一区二区三区在线观看国产 | 99久久久久久久久| 中文一区二区在线观看| 亚洲一区二区偷拍| 国产精品色网| 高清视频在线观看一区| 性孕妇free特大另类| 色黄久久久久久| 成人h动漫精品一区二区无码| 黄色一区二区在线观看| 女女调教被c哭捆绑喷水百合| 亚洲国产日韩欧美一区二区三区| 成人性生交大片免费看视频直播| 牛牛热在线视频| 欧美精选在线播放| 国产视频123区| 视频一区欧美精品| 欧美激情第六页| 欧美在线极品| 日韩成人高清在线| 一区二区三区免费在线| 亚洲国产精品高清| fc2成人免费视频| 精品动漫3d一区二区三区免费| 69堂成人精品视频免费| 麻豆视频在线看| 久久久999国产| 99视频在线观看免费| 欧美性xxxx极品hd欧美风情| 亚洲av无码国产精品久久| 狠狠色丁香婷婷综合| 四虎免费在线观看视频| 国产亚洲久久| 国产精品福利小视频| 国产h在线观看| 亚洲精品一区二区三区影院 | 欧美一区二区久久| 波多野结衣黄色| 国产欧美日韩另类视频免费观看 | 伊人网免费视频| 国产欧美一区二区三区在线看蜜臀 | 妞干网免费在线视频| 伦理中文字幕亚洲| www.av导航| 欧美日韩综合在线免费观看| 中文国语毛片高清视频| 久久一日本道色综合| www.欧美日本| 国产精品老牛| 激情深爱综合网| 欧美日韩精品免费观看视频完整| 自拍偷拍99| 欧美xxxx中国| 亚洲国产精品www| 日韩精品视频中文字幕| 国产欧美日韩视频| 国产成人免费| 国产一区视频在线播放| 芒果视频成人app| 日韩一区二区三区国产| 成人全视频高清免费观看| 亚洲精品小视频| 欧美偷拍视频| 91 com成人网| 好吊操这里只有精品| 久久精品人人做人人爽97| 蜜桃精品成人影片| 91蝌蚪国产九色| 小早川怜子一区二区三区| 另类小说综合欧美亚洲| 超碰超碰在线观看| 亚洲国产午夜| 精品这里只有精品| 午夜亚洲影视| 成人中文字幕av| 蜜臀av性久久久久蜜臀aⅴ四虎| 中文字幕在线导航| 久久国产精品一区二区| 黄页免费在线观看视频| 在线亚洲欧美| 无码精品国产一区二区三区免费| 亚洲欧美日韩在线观看a三区| 国产免费毛卡片| 麻豆精品网站| 欧美午夜aaaaaa免费视频| 久久99精品久久久久久国产越南 | 99re这里只有精品6| 少妇按摩一区二区三区| 国产日本欧洲亚洲| www深夜成人a√在线| 亚洲精品va在线观看| 日本一级一片免费视频| 91福利在线看| 国产精品视频无码| 色综合久久精品| 免费一级片在线观看| 亚洲高清不卡在线| 国产精品白丝喷水在线观看| 一区二区三区在线免费播放| 欧美激情亚洲综合| 亚洲一区二区视频在线| 天天操天天爽天天干| 欧美性色黄大片手机版| 99久久一区二区| 日韩av在线免费观看一区| 91女主播在线观看| 亚洲社区在线观看| 国产在线看片| 日本精品久久中文字幕佐佐木| 视频欧美精品| 久久久久资源| 啪啪国产精品| 一区二区三区国产福利| 成人av国产| 日韩电影免费观看在| 亚洲女同中文字幕| 9999在线观看| 亚洲永久免费精品| 色男人天堂av| 久久精品男人天堂av| 久久精品第一页| 欧美日韩一二三区| 亚洲三区在线观看无套内射| 亚洲成成品网站| 午夜在线视频播放| www.亚洲一区| 乱人伦视频在线| 97se亚洲综合| 无码一区二区三区视频| 中文字幕综合在线观看| 久久国产精品久久久久久电车| 两女双腿交缠激烈磨豆腐| 欧美—级在线免费片| 国产成人无码精品亚洲| 日韩亚洲欧美在线观看| 香蕉视频在线播放| 国产精品国模在线| 欧美激情影院| 大伊香蕉精品视频在线| 亚洲人成人一区二区三区| 视频区 图片区 小说区| 国产欧美日韩亚州综合| 永久免费无码av网站在线观看| 精品美女在线观看| 在线观看免费视频你懂的| 欧美成人免费全部| 欧美大陆国产| 午夜精品一区二区三区在线观看| 国产精品亚洲欧美| 国产精品久久久久久久无码| www激情久久| 国产精品50页| 日韩精品在线看片z| 国产在线观看91| 成人免费午夜电影| 99久久精品国产亚洲精品| 三级在线免费看| 国产亚洲女人久久久久毛片| 国产午夜免费福利| 日韩av一区在线观看| av男人的天堂在线观看| 国产精品视频福利| 精品国产1区| 精品www久久久久奶水| 久久亚洲精精品中文字幕早川悠里 | 不卡的av中文字幕| 中文字幕二三区不卡| 一区二区乱子伦在线播放| 91精品国产综合久久久蜜臀图片| аⅴ资源新版在线天堂| 国产精品日本精品| 成人高潮a毛片免费观看网站| 久久综合久久久| 婷婷综合久久| 国产三级精品三级在线| 亚洲色图清纯唯美| 丰满少妇xoxoxo视频| 国产视频综合在线| 日韩av首页| 成人xxxxx色| 亚洲电影成人| 97伦伦午夜电影理伦片| 色婷婷国产精品综合在线观看| 成人在线观看一区| 91人成网站www| 韩国精品一区二区三区| 捆绑凌虐一区二区三区| 色屁屁一区二区| 免费**毛片在线| 国产成人亚洲综合91精品| 99精品在免费线中文字幕网站一区 | 日本久久久久久久久久| 欧美日韩国产专区| 风间由美一区| 91久久嫩草影院一区二区| 激情欧美亚洲| av网在线播放| 欧美日韩国产精品一区二区不卡中文| 天堂在线资源库| 国产精品va在线播放我和闺蜜| 四季av一区二区凹凸精品| 99免费观看视频| 日本高清不卡aⅴ免费网站| 秋霞午夜理伦电影在线观看| 国产精品国产亚洲精品看不卡15| 欧美综合国产| 中文字幕电影av| 国产午夜精品久久久 | 国产精品综合色区在线观看| 91精品久久久久久久久久久久| 91精品国产一区二区三区蜜臀| а√天堂8资源在线| 99精品国产高清一区二区| 国产亚洲在线观看| 国产三级精品三级观看| 亚洲激情自拍图| av手机在线观看| 亚洲国产午夜伦理片大全在线观看网站 | 4388成人网| 一区二区三区在线| 精品人妻无码一区二区三区换脸 |