聊聊大模型推理系統(tǒng)之 Arrow：自適應(yīng)調(diào)度實(shí)現(xiàn)請(qǐng)求吞吐提升7.78倍背后的三大創(chuàng)新

作者：機(jī)智流科技 2025-08-29 01:15:00

Arrow?的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑，也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng)，導(dǎo)致傳統(tǒng)固定比例的 Prefill（填充）與 Decode（解碼）節(jié)點(diǎn)配置極易失衡。

在大模型（LLM）推理服務(wù)中，如何在輸入/輸出長度劇烈波動(dòng)的現(xiàn)實(shí)場景下，依然保持高吞吐與低延遲？傳統(tǒng)靜態(tài)資源分配策略往往導(dǎo)致計(jì)算資源嚴(yán)重浪費(fèi)。近期，來自中國科學(xué)技術(shù)大學(xué)、北航與京東的研究團(tuán)隊(duì)提出了一項(xiàng)名為 Arrow 的自適應(yīng)調(diào)度機(jī)制，通過無狀態(tài)實(shí)例與彈性實(shí)例池，實(shí)現(xiàn)了高達(dá) 7.78 倍的請(qǐng)求服務(wù)速率提升。這項(xiàng)研究不僅解決了Prefill-Decode 拆分架構(gòu)（PD 拆分）的核心瓶頸，更為大模型服務(wù)系統(tǒng)的彈性化設(shè)計(jì)提供了新范式。

論文鏈接見文末

核心看點(diǎn)

Arrow 的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑，也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng)，導(dǎo)致傳統(tǒng)固定比例的 Prefill（填充）與 Decode（解碼）節(jié)點(diǎn)配置極易失衡。為此，Arrow 創(chuàng)新性地將計(jì)算實(shí)例設(shè)計(jì)為無狀態(tài)（stateless），使其可隨時(shí)在 Prefill 和 Decode 任務(wù)間切換，徹底消除了傳統(tǒng)“實(shí)例翻轉(zhuǎn)”帶來的分鐘級(jí)延遲。通過實(shí)時(shí)監(jiān)控Time-to-First-Token（TTFT，首字延遲）和Time-per-Output-Token（TPOT，字間延遲）等關(guān)鍵指標(biāo)，Arrow 實(shí)現(xiàn)了 SLO（服務(wù)等級(jí)目標(biāo)）感知的調(diào)度決策，在多種真實(shí)工作負(fù)載下，請(qǐng)求吞吐率最高提升了 5.62 倍（對(duì)比 PD 共置系統(tǒng)）和 7.78 倍（對(duì)比 PD 拆分系統(tǒng)）。

研究背景

當(dāng)前，大模型推理服務(wù)普遍采用Transformer架構(gòu)，其推理過程分為兩個(gè)階段：Prefill 階段負(fù)責(zé)處理用戶輸入并生成首個(gè)輸出 Token，計(jì)算復(fù)雜度與輸入長度的平方成正比；Decode 階段則以自回歸方式逐個(gè)生成后續(xù) Token，計(jì)算復(fù)雜度與批處理中的總 Token 數(shù)線性相關(guān)。為避免兩階段的相互干擾，學(xué)術(shù)界提出了Prefill-Decode 拆分架構(gòu)，將兩種計(jì)算任務(wù)分配給專用的實(shí)例。然而，這種架構(gòu)引入了一個(gè)新問題：如何確定 Prefill 與 Decode 實(shí)例的最優(yōu)配比？

傳統(tǒng)方法依賴離線分析或仿真，但在輸入/輸出長度劇烈波動(dòng)的真實(shí)場景中，靜態(tài)配比無法適應(yīng)動(dòng)態(tài)負(fù)載，導(dǎo)致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動(dòng)態(tài)“翻轉(zhuǎn)”實(shí)例角色，但翻轉(zhuǎn)過程需重啟實(shí)例，耗時(shí)長達(dá)數(shù)分鐘，無法應(yīng)對(duì)突發(fā)流量。因此，如何實(shí)現(xiàn)低延遲、高靈活性的實(shí)例資源動(dòng)態(tài)調(diào)度，成為提升 LLM 服務(wù)系統(tǒng)整體吞吐（goodput）的關(guān)鍵挑戰(zhàn)。

圖片

核心貢獻(xiàn)

圖片

方法創(chuàng)新：無狀態(tài)實(shí)例與彈性實(shí)例池

Arrow 的首要?jiǎng)?chuàng)新是提出了無狀態(tài)實(shí)例（stateless instance）設(shè)計(jì)。在傳統(tǒng)系統(tǒng)中，一個(gè)實(shí)例被固化為 Prefill 或 Decode 角色。而在 Arrow 中，每個(gè)實(shí)例均可處理任意類型的任務(wù)。當(dāng)一個(gè)請(qǐng)求的 Prefill 階段完成后，該請(qǐng)求及其KV Cache（鍵值緩存，存儲(chǔ)中間計(jì)算結(jié)果以避免重復(fù)計(jì)算）可被傳輸至任意其他實(shí)例進(jìn)行 Decode。這使得實(shí)例的角色切換不再是“物理重啟”，而是“邏輯重分配”，實(shí)現(xiàn)了零等待時(shí)間的資源重配。

為了高效管理這些無狀態(tài)實(shí)例，Arrow 設(shè)計(jì)了彈性實(shí)例池（elastic instance pool），包含四個(gè)邏輯池：Prefill 池、Decode 池、P→D 池（正從 Prefill 轉(zhuǎn)向 Decode）和 D→P 池（正從 Decode 轉(zhuǎn)向 Prefill）。全局調(diào)度器通過移動(dòng)實(shí)例在這些池間的歸屬，即可完成角色切換，整個(gè)過程無任何中斷。

理論突破：基于 SLO 的實(shí)時(shí)調(diào)度洞察

圖片

Arrow 的調(diào)度決策并非基于間接的請(qǐng)求長度或利用率，而是直接與 SLO 掛鉤。研究團(tuán)隊(duì)通過分析，得出了幾項(xiàng)關(guān)鍵洞察：

TTFT 具有強(qiáng)可預(yù)測(cè)性：由于 Prefill 時(shí)間與輸入長度的平方成正比，系統(tǒng)可以精確預(yù)測(cè)新請(qǐng)求的 TTFT。Arrow 利用此特性，在請(qǐng)求進(jìn)入隊(duì)列前就判斷其是否可能違反 SLO，從而提前觸發(fā)實(shí)例重配。
TPOT 具有弱可預(yù)測(cè)性但非單調(diào)：Decode 階段的延遲受多種因素影響，難以預(yù)測(cè)。但 TPOT 是所有字間延遲的平均值，具有“非單調(diào)性”，即短暫的延遲高峰不一定會(huì)導(dǎo)致 SLO 違規(guī)。因此，Arrow 采取“事后監(jiān)測(cè)”策略，當(dāng)觀察到 TPOT 持續(xù)超標(biāo)時(shí)，再調(diào)度更多實(shí)例加入 Decode。

實(shí)證成果：性能顯著超越現(xiàn)有系統(tǒng)

圖片

研究團(tuán)隊(duì)基于 vLLM 框架實(shí)現(xiàn)了 Arrow，并在 Llama-3.1-8B 模型上，使用 Azure Code、BurstGPT 等四種真實(shí)生產(chǎn)流量進(jìn)行測(cè)試。在 90% SLO 達(dá)標(biāo)率的約束下，Arrow 的性能表現(xiàn)如下：

圖片

在高度突發(fā)的 Azure Code 負(fù)載下，Arrow 的可持續(xù)請(qǐng)求速率達(dá)到50 req/s，是 vLLM（PD 共置）的5.62 倍，是 vLLM-disaggregated（PD 拆分）的7.78 倍。
在長上下文場景（Mooncake Conversation）下，Arrow 通過將空閑的 Prefill 實(shí)例快速調(diào)度至 Decode 任務(wù)，釋放了寶貴的內(nèi)存資源，請(qǐng)求速率提升了3.73 倍（對(duì)比 vLLM）。
消融實(shí)驗(yàn)表明，Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負(fù)載”策略的基線高出1.67 倍的請(qǐng)求速率，證明了其自適應(yīng)機(jī)制的有效性。
在擴(kuò)展性測(cè)試中，隨著 GPU 數(shù)量從 2 個(gè)增加到 8 個(gè)，Arrow 的 SLO 達(dá)標(biāo)率實(shí)現(xiàn)了近似線性增長，展現(xiàn)了強(qiáng)大的橫向擴(kuò)展能力。

行業(yè)意義

Arrow 的研究成果為大模型即服務(wù)（LMaaS）領(lǐng)域指明了一條高效、彈性的技術(shù)路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢(shì)”到“實(shí)踐落地”的最后一公里問題，即動(dòng)態(tài)資源調(diào)度的延遲與靈活性。其設(shè)計(jì)理念與云原生和微服務(wù)的彈性思想高度契合，有望成為未來大模型推理平臺(tái)的標(biāo)準(zhǔn)組件。

該工作與我國推動(dòng)算力基礎(chǔ)設(shè)施高效利用的政策導(dǎo)向相符，通過提升單 GPU 的請(qǐng)求處理能力，可顯著降低大模型服務(wù)的運(yùn)營成本和能耗，助力實(shí)現(xiàn)“雙碳”目標(biāo)。未來，Arrow 的架構(gòu)有望推動(dòng)自動(dòng)駕駛、智能客服等對(duì)延遲敏感的產(chǎn)業(yè)級(jí)應(yīng)用，實(shí)現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗(yàn)。這一創(chuàng)新，正在悄然推動(dòng)大模型服務(wù)基礎(chǔ)設(shè)施的深層變革。