聊聊大模型推理系統(tǒng)之 Arrow:自適應(yīng)調(diào)度實(shí)現(xiàn)請(qǐng)求吞吐提升7.78倍背后的三大創(chuàng)新
在大模型(LLM)推理服務(wù)中,如何在輸入/輸出長度劇烈波動(dòng)的現(xiàn)實(shí)場景下,依然保持高吞吐與低延遲?傳統(tǒng)靜態(tài)資源分配策略往往導(dǎo)致計(jì)算資源嚴(yán)重浪費(fèi)。近期,來自中國科學(xué)技術(shù)大學(xué)、北航與京東的研究團(tuán)隊(duì)提出了一項(xiàng)名為 Arrow 的自適應(yīng)調(diào)度機(jī)制,通過無狀態(tài)實(shí)例與彈性實(shí)例池,實(shí)現(xiàn)了高達(dá) 7.78 倍 的請(qǐng)求服務(wù)速率提升。這項(xiàng)研究不僅解決了Prefill-Decode 拆分架構(gòu)(PD 拆分)的核心瓶頸,更為大模型服務(wù)系統(tǒng)的彈性化設(shè)計(jì)提供了新范式。
論文鏈接見文末
核心看點(diǎn)
Arrow 的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑,也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng),導(dǎo)致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點(diǎn)配置極易失衡。為此,Arrow 創(chuàng)新性地將計(jì)算實(shí)例設(shè)計(jì)為無狀態(tài)(stateless),使其可隨時(shí)在 Prefill 和 Decode 任務(wù)間切換,徹底消除了傳統(tǒng)“實(shí)例翻轉(zhuǎn)”帶來的分鐘級(jí)延遲。通過實(shí)時(shí)監(jiān)控Time-to-First-Token(TTFT,首字延遲)和Time-per-Output-Token(TPOT,字間延遲)等關(guān)鍵指標(biāo),Arrow 實(shí)現(xiàn)了 SLO(服務(wù)等級(jí)目標(biāo))感知的調(diào)度決策,在多種真實(shí)工作負(fù)載下,請(qǐng)求吞吐率最高提升了 5.62 倍(對(duì)比 PD 共置系統(tǒng))和 7.78 倍(對(duì)比 PD 拆分系統(tǒng))。
研究背景
當(dāng)前,大模型推理服務(wù)普遍采用Transformer架構(gòu),其推理過程分為兩個(gè)階段:Prefill 階段負(fù)責(zé)處理用戶輸入并生成首個(gè)輸出 Token,計(jì)算復(fù)雜度與輸入長度的平方成正比;Decode 階段則以自回歸方式逐個(gè)生成后續(xù) Token,計(jì)算復(fù)雜度與批處理中的總 Token 數(shù)線性相關(guān)。為避免兩階段的相互干擾,學(xué)術(shù)界提出了Prefill-Decode 拆分架構(gòu),將兩種計(jì)算任務(wù)分配給專用的實(shí)例。然而,這種架構(gòu)引入了一個(gè)新問題:如何確定 Prefill 與 Decode 實(shí)例的最優(yōu)配比?
傳統(tǒng)方法依賴離線分析或仿真,但在輸入/輸出長度劇烈波動(dòng)的真實(shí)場景中,靜態(tài)配比無法適應(yīng)動(dòng)態(tài)負(fù)載,導(dǎo)致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動(dòng)態(tài)“翻轉(zhuǎn)”實(shí)例角色,但翻轉(zhuǎn)過程需重啟實(shí)例,耗時(shí)長達(dá)數(shù)分鐘,無法應(yīng)對(duì)突發(fā)流量。因此,如何實(shí)現(xiàn)低延遲、高靈活性的實(shí)例資源動(dòng)態(tài)調(diào)度,成為提升 LLM 服務(wù)系統(tǒng)整體吞吐(goodput)的關(guān)鍵挑戰(zhàn)。
圖片
核心貢獻(xiàn)
圖片
方法創(chuàng)新:無狀態(tài)實(shí)例與彈性實(shí)例池
Arrow 的首要?jiǎng)?chuàng)新是提出了無狀態(tài)實(shí)例(stateless instance)設(shè)計(jì)。在傳統(tǒng)系統(tǒng)中,一個(gè)實(shí)例被固化為 Prefill 或 Decode 角色。而在 Arrow 中,每個(gè)實(shí)例均可處理任意類型的任務(wù)。當(dāng)一個(gè)請(qǐng)求的 Prefill 階段完成后,該請(qǐng)求及其KV Cache(鍵值緩存,存儲(chǔ)中間計(jì)算結(jié)果以避免重復(fù)計(jì)算)可被傳輸至任意其他實(shí)例進(jìn)行 Decode。這使得實(shí)例的角色切換不再是“物理重啟”,而是“邏輯重分配”,實(shí)現(xiàn)了零等待時(shí)間的資源重配。
為了高效管理這些無狀態(tài)實(shí)例,Arrow 設(shè)計(jì)了彈性實(shí)例池(elastic instance pool),包含四個(gè)邏輯池:Prefill 池、Decode 池、P→D 池(正從 Prefill 轉(zhuǎn)向 Decode)和 D→P 池(正從 Decode 轉(zhuǎn)向 Prefill)。全局調(diào)度器通過移動(dòng)實(shí)例在這些池間的歸屬,即可完成角色切換,整個(gè)過程無任何中斷。
理論突破:基于 SLO 的實(shí)時(shí)調(diào)度洞察
圖片
Arrow 的調(diào)度決策并非基于間接的請(qǐng)求長度或利用率,而是直接與 SLO 掛鉤。研究團(tuán)隊(duì)通過分析,得出了幾項(xiàng)關(guān)鍵洞察:
- TTFT 具有強(qiáng)可預(yù)測(cè)性:由于 Prefill 時(shí)間與輸入長度的平方成正比,系統(tǒng)可以精確預(yù)測(cè)新請(qǐng)求的 TTFT。Arrow 利用此特性,在請(qǐng)求進(jìn)入隊(duì)列前就判斷其是否可能違反 SLO,從而提前觸發(fā)實(shí)例重配。
- TPOT 具有弱可預(yù)測(cè)性但非單調(diào):Decode 階段的延遲受多種因素影響,難以預(yù)測(cè)。但 TPOT 是所有字間延遲的平均值,具有“非單調(diào)性”,即短暫的延遲高峰不一定會(huì)導(dǎo)致 SLO 違規(guī)。因此,Arrow 采取“事后監(jiān)測(cè)”策略,當(dāng)觀察到 TPOT 持續(xù)超標(biāo)時(shí),再調(diào)度更多實(shí)例加入 Decode。
實(shí)證成果:性能顯著超越現(xiàn)有系統(tǒng)
圖片
研究團(tuán)隊(duì)基于 vLLM 框架實(shí)現(xiàn)了 Arrow,并在 Llama-3.1-8B 模型上,使用 Azure Code、BurstGPT 等四種真實(shí)生產(chǎn)流量進(jìn)行測(cè)試。在 90% SLO 達(dá)標(biāo)率的約束下,Arrow 的性能表現(xiàn)如下:
圖片
- 在高度突發(fā)的 Azure Code 負(fù)載下,Arrow 的可持續(xù)請(qǐng)求速率達(dá)到50 req/s,是 vLLM(PD 共置)的5.62 倍,是 vLLM-disaggregated(PD 拆分)的7.78 倍。
- 在長上下文場景(Mooncake Conversation)下,Arrow 通過將空閑的 Prefill 實(shí)例快速調(diào)度至 Decode 任務(wù),釋放了寶貴的內(nèi)存資源,請(qǐng)求速率提升了3.73 倍(對(duì)比 vLLM)。
- 消融實(shí)驗(yàn)表明,Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負(fù)載”策略的基線高出1.67 倍的請(qǐng)求速率,證明了其自適應(yīng)機(jī)制的有效性。
- 在擴(kuò)展性測(cè)試中,隨著 GPU 數(shù)量從 2 個(gè)增加到 8 個(gè),Arrow 的 SLO 達(dá)標(biāo)率實(shí)現(xiàn)了近似線性增長,展現(xiàn)了強(qiáng)大的橫向擴(kuò)展能力。
行業(yè)意義
Arrow 的研究成果為大模型即服務(wù)(LMaaS)領(lǐng)域指明了一條高效、彈性的技術(shù)路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢(shì)”到“實(shí)踐落地”的最后一公里問題,即動(dòng)態(tài)資源調(diào)度的延遲與靈活性。其設(shè)計(jì)理念與云原生和微服務(wù)的彈性思想高度契合,有望成為未來大模型推理平臺(tái)的標(biāo)準(zhǔn)組件。
該工作與我國推動(dòng)算力基礎(chǔ)設(shè)施高效利用的政策導(dǎo)向相符,通過提升單 GPU 的請(qǐng)求處理能力,可顯著降低大模型服務(wù)的運(yùn)營成本和能耗,助力實(shí)現(xiàn)“雙碳”目標(biāo)。未來,Arrow 的架構(gòu)有望推動(dòng)自動(dòng)駕駛、智能客服等對(duì)延遲敏感的產(chǎn)業(yè)級(jí)應(yīng)用,實(shí)現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗(yàn)。這一創(chuàng)新,正在悄然推動(dòng)大模型服務(wù)基礎(chǔ)設(shè)施的深層變革。
論文鏈接:Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture[1]
參考資料
[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916



































