精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

聊聊大模型推理系統(tǒng)之 Arrow:自適應(yīng)調(diào)度實(shí)現(xiàn)請(qǐng)求吞吐提升7.78倍背后的三大創(chuàng)新

人工智能
Arrow?的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑,也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng),導(dǎo)致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點(diǎn)配置極易失衡。

在大模型(LLM)推理服務(wù)中,如何在輸入/輸出長度劇烈波動(dòng)的現(xiàn)實(shí)場景下,依然保持高吞吐與低延遲?傳統(tǒng)靜態(tài)資源分配策略往往導(dǎo)致計(jì)算資源嚴(yán)重浪費(fèi)。近期,來自中國科學(xué)技術(shù)大學(xué)、北航與京東的研究團(tuán)隊(duì)提出了一項(xiàng)名為 Arrow 的自適應(yīng)調(diào)度機(jī)制,通過無狀態(tài)實(shí)例與彈性實(shí)例池,實(shí)現(xiàn)了高達(dá) 7.78 倍 的請(qǐng)求服務(wù)速率提升。這項(xiàng)研究不僅解決了Prefill-Decode 拆分架構(gòu)(PD 拆分)的核心瓶頸,更為大模型服務(wù)系統(tǒng)的彈性化設(shè)計(jì)提供了新范式。

論文鏈接見文末論文鏈接見文末

核心看點(diǎn)

Arrow 的核心突破在于其“雙自適應(yīng)”調(diào)度能力——既能動(dòng)態(tài)調(diào)整請(qǐng)求的分發(fā)路徑,也能實(shí)時(shí)重配計(jì)算實(shí)例的角色。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中的 LLM 請(qǐng)求在輸入和輸出長度上存在巨大波動(dòng),導(dǎo)致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點(diǎn)配置極易失衡。為此,Arrow 創(chuàng)新性地將計(jì)算實(shí)例設(shè)計(jì)為無狀態(tài)(stateless),使其可隨時(shí)在 Prefill 和 Decode 任務(wù)間切換,徹底消除了傳統(tǒng)“實(shí)例翻轉(zhuǎn)”帶來的分鐘級(jí)延遲。通過實(shí)時(shí)監(jiān)控Time-to-First-Token(TTFT,首字延遲)和Time-per-Output-Token(TPOT,字間延遲)等關(guān)鍵指標(biāo),Arrow 實(shí)現(xiàn)了 SLO(服務(wù)等級(jí)目標(biāo))感知的調(diào)度決策,在多種真實(shí)工作負(fù)載下,請(qǐng)求吞吐率最高提升了 5.62 倍(對(duì)比 PD 共置系統(tǒng))和 7.78 倍(對(duì)比 PD 拆分系統(tǒng))。

研究背景

當(dāng)前,大模型推理服務(wù)普遍采用Transformer架構(gòu),其推理過程分為兩個(gè)階段:Prefill 階段負(fù)責(zé)處理用戶輸入并生成首個(gè)輸出 Token,計(jì)算復(fù)雜度與輸入長度的平方成正比;Decode 階段則以自回歸方式逐個(gè)生成后續(xù) Token,計(jì)算復(fù)雜度與批處理中的總 Token 數(shù)線性相關(guān)。為避免兩階段的相互干擾,學(xué)術(shù)界提出了Prefill-Decode 拆分架構(gòu),將兩種計(jì)算任務(wù)分配給專用的實(shí)例。然而,這種架構(gòu)引入了一個(gè)新問題:如何確定 Prefill 與 Decode 實(shí)例的最優(yōu)配比?

傳統(tǒng)方法依賴離線分析或仿真,但在輸入/輸出長度劇烈波動(dòng)的真實(shí)場景中,靜態(tài)配比無法適應(yīng)動(dòng)態(tài)負(fù)載,導(dǎo)致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動(dòng)態(tài)“翻轉(zhuǎn)”實(shí)例角色,但翻轉(zhuǎn)過程需重啟實(shí)例,耗時(shí)長達(dá)數(shù)分鐘,無法應(yīng)對(duì)突發(fā)流量。因此,如何實(shí)現(xiàn)低延遲、高靈活性的實(shí)例資源動(dòng)態(tài)調(diào)度,成為提升 LLM 服務(wù)系統(tǒng)整體吞吐(goodput)的關(guān)鍵挑戰(zhàn)。

圖片圖片

核心貢獻(xiàn)

圖片圖片

方法創(chuàng)新:無狀態(tài)實(shí)例與彈性實(shí)例池

Arrow 的首要?jiǎng)?chuàng)新是提出了無狀態(tài)實(shí)例(stateless instance)設(shè)計(jì)。在傳統(tǒng)系統(tǒng)中,一個(gè)實(shí)例被固化為 Prefill 或 Decode 角色。而在 Arrow 中,每個(gè)實(shí)例均可處理任意類型的任務(wù)。當(dāng)一個(gè)請(qǐng)求的 Prefill 階段完成后,該請(qǐng)求及其KV Cache(鍵值緩存,存儲(chǔ)中間計(jì)算結(jié)果以避免重復(fù)計(jì)算)可被傳輸至任意其他實(shí)例進(jìn)行 Decode。這使得實(shí)例的角色切換不再是“物理重啟”,而是“邏輯重分配”,實(shí)現(xiàn)了零等待時(shí)間的資源重配。

為了高效管理這些無狀態(tài)實(shí)例,Arrow 設(shè)計(jì)了彈性實(shí)例池(elastic instance pool),包含四個(gè)邏輯池:Prefill 池、Decode 池、P→D 池(正從 Prefill 轉(zhuǎn)向 Decode)和 D→P 池(正從 Decode 轉(zhuǎn)向 Prefill)。全局調(diào)度器通過移動(dòng)實(shí)例在這些池間的歸屬,即可完成角色切換,整個(gè)過程無任何中斷。

理論突破:基于 SLO 的實(shí)時(shí)調(diào)度洞察

圖片圖片

Arrow 的調(diào)度決策并非基于間接的請(qǐng)求長度或利用率,而是直接與 SLO 掛鉤。研究團(tuán)隊(duì)通過分析,得出了幾項(xiàng)關(guān)鍵洞察:

  1. TTFT 具有強(qiáng)可預(yù)測(cè)性:由于 Prefill 時(shí)間與輸入長度的平方成正比,系統(tǒng)可以精確預(yù)測(cè)新請(qǐng)求的 TTFT。Arrow 利用此特性,在請(qǐng)求進(jìn)入隊(duì)列前就判斷其是否可能違反 SLO,從而提前觸發(fā)實(shí)例重配。
  2. TPOT 具有弱可預(yù)測(cè)性但非單調(diào):Decode 階段的延遲受多種因素影響,難以預(yù)測(cè)。但 TPOT 是所有字間延遲的平均值,具有“非單調(diào)性”,即短暫的延遲高峰不一定會(huì)導(dǎo)致 SLO 違規(guī)。因此,Arrow 采取“事后監(jiān)測(cè)”策略,當(dāng)觀察到 TPOT 持續(xù)超標(biāo)時(shí),再調(diào)度更多實(shí)例加入 Decode。

實(shí)證成果:性能顯著超越現(xiàn)有系統(tǒng)

圖片圖片

研究團(tuán)隊(duì)基于 vLLM 框架實(shí)現(xiàn)了 Arrow,并在 Llama-3.1-8B 模型上,使用 Azure Code、BurstGPT 等四種真實(shí)生產(chǎn)流量進(jìn)行測(cè)試。在 90% SLO 達(dá)標(biāo)率的約束下,Arrow 的性能表現(xiàn)如下:

圖片圖片

  • 在高度突發(fā)的 Azure Code 負(fù)載下,Arrow 的可持續(xù)請(qǐng)求速率達(dá)到50 req/s,是 vLLM(PD 共置)的5.62 倍,是 vLLM-disaggregated(PD 拆分)的7.78 倍
  • 在長上下文場景(Mooncake Conversation)下,Arrow 通過將空閑的 Prefill 實(shí)例快速調(diào)度至 Decode 任務(wù),釋放了寶貴的內(nèi)存資源,請(qǐng)求速率提升了3.73 倍(對(duì)比 vLLM)。
  • 消融實(shí)驗(yàn)表明,Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負(fù)載”策略的基線高出1.67 倍的請(qǐng)求速率,證明了其自適應(yīng)機(jī)制的有效性。
  • 在擴(kuò)展性測(cè)試中,隨著 GPU 數(shù)量從 2 個(gè)增加到 8 個(gè),Arrow 的 SLO 達(dá)標(biāo)率實(shí)現(xiàn)了近似線性增長,展現(xiàn)了強(qiáng)大的橫向擴(kuò)展能力。

行業(yè)意義

Arrow 的研究成果為大模型即服務(wù)(LMaaS)領(lǐng)域指明了一條高效、彈性的技術(shù)路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢(shì)”到“實(shí)踐落地”的最后一公里問題,即動(dòng)態(tài)資源調(diào)度的延遲與靈活性。其設(shè)計(jì)理念與云原生微服務(wù)的彈性思想高度契合,有望成為未來大模型推理平臺(tái)的標(biāo)準(zhǔn)組件。

該工作與我國推動(dòng)算力基礎(chǔ)設(shè)施高效利用的政策導(dǎo)向相符,通過提升單 GPU 的請(qǐng)求處理能力,可顯著降低大模型服務(wù)的運(yùn)營成本和能耗,助力實(shí)現(xiàn)“雙碳”目標(biāo)。未來,Arrow 的架構(gòu)有望推動(dòng)自動(dòng)駕駛智能客服等對(duì)延遲敏感的產(chǎn)業(yè)級(jí)應(yīng)用,實(shí)現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗(yàn)。這一創(chuàng)新,正在悄然推動(dòng)大模型服務(wù)基礎(chǔ)設(shè)施的深層變革。

論文鏈接:Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture[1]

參考資料

[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916

責(zé)任編輯:武曉燕 來源: 機(jī)智流
相關(guān)推薦

2025-09-26 07:49:10

2024-10-21 12:30:52

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-11-02 10:28:03

2025-05-28 02:40:00

AdaptThink推理模型AI

2023-10-23 08:48:04

CSS寬度標(biāo)題

2023-01-18 09:51:56

模型開源

2025-02-13 08:51:23

DeepSeek大模型

2024-11-01 20:25:28

2024-09-27 10:31:22

2025-02-25 09:49:12

2025-06-09 09:32:35

2025-07-08 03:11:00

2024-03-18 10:38:03

模型算法

2024-07-08 13:04:01

2023-12-07 06:51:18

AI模型

2023-12-11 15:40:32

PyTorch代碼大模型

2010-08-24 16:03:22

Div高度

2023-12-14 13:30:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一区在线观| 免费91麻豆精品国产自产在线观看 | 青青草国产免费| 亚洲av毛片成人精品| 三级成人在线视频| 欧美成人第一页| 青青草视频播放| 成人av在线播放| 疯狂蹂躏欧美一区二区精品| 亚洲午夜精品一区二区| 欧美一级性视频| 美女尤物国产一区| 国内久久久精品| 毛片视频免费播放| 免费福利视频一区| 欧美男男青年gay1069videost| 亚洲 自拍 另类小说综合图区| 国产福利第一视频在线播放| 国产精品资源在线观看| 国产盗摄xxxx视频xxx69| 欧美交换国产一区内射| 日韩成人影院| 日韩高清av一区二区三区| 五月天婷婷亚洲| 成人性生交大片免费观看网站| 亚洲欧美一区二区久久| 日韩黄色影视| 香蕉视频网站在线| 国产成人精品免费看| 国产免费一区二区三区香蕉精| 羞羞影院体验区| 欧美另类女人| 久久视频免费在线播放| 极品蜜桃臀肥臀-x88av| 亚洲va久久久噜噜噜久久| 亚洲第一天堂av| 一本之道在线视频| 99久久999| 欧美男人的天堂一二区| 男人插女人下面免费视频| 99视频精品全部免费看| 91资源在线视频| 天堂影院一区二区| 青青久久av北条麻妃海外网| 国产一级在线免费观看| 牛夜精品久久久久久久99黑人| 在线观看欧美日韩| 蜜桃无码一区二区三区| 日韩动漫一区| 日韩av在线网| 一起草在线视频| 欧美一区自拍| 日韩av在线免播放器| 真人bbbbbbbbb毛片| 久9re热视频这里只有精品| 亚洲成人久久久| 在线播放av网址| 国产精品男女| 亚洲精品久久久久中文字幕二区 | 无码人妻精品一区二区三区99v| 国产高清美女一级毛片久久| 亚洲国产精华液网站w| 亚洲国产一区在线| 欧美videos极品另类| 国产精品久久久久久久久久免费看 | 精品国产av一区二区三区| 国产成人在线视频播放| 国产精品9999久久久久仙踪林| 亚洲av永久纯肉无码精品动漫| 国产+成+人+亚洲欧洲自线| 国产欧美日韩在线播放| 亚洲欧洲视频在线观看| 久久美女高清视频| 亚洲欧洲另类精品久久综合| 成人av福利| 亚洲一区二区高清| 任你操这里只有精品| 视频精品导航| 日韩一卡二卡三卡四卡| 亚洲av成人片无码| 性无码专区无码| 亚洲成av人片乱码色午夜| 欧美巨乳在线观看| 在线观看国产亚洲| 美女在线一区二区| 国产成人亚洲欧美| 国产高清视频免费最新在线| 中文字幕亚洲在| 国产二区视频在线| 深夜成人影院| 欧美一区三区二区| 在线视频 日韩| 日韩a一区二区| 欧美激情视频在线| 国产一级片免费在线观看| 激情五月婷婷综合| 久久爱av电影| 国内外激情在线| 午夜精品免费在线| 色一情一区二区| 加勒比色综合久久久久久久久 | 成人性生交大免费看| 99久久亚洲精品| 91国在线精品国内播放| 中文字幕人妻互换av久久| 国产99久久久精品| 欧美午夜精品电影| 国产精品无码av在线播放| yiren22亚洲综合| 精品电影一区二区三区| 日本欧美一区二区三区不卡视频| 欧美日韩国产免费观看 | 无码毛片aaa在线| 小早川怜子影音先锋在线观看| 欧美日韩激情一区二区三区| 黄色av电影网站| 久久精品国产大片免费观看| 2019亚洲男人天堂| 亚洲男人第一天堂| 亚洲精品欧美专区| 手机看片一级片| 国产一区二区三区四区五区| 欧美极品第一页| 99久久精品国产一区色| 欧美国产欧美综合| 亚洲 高清 成人 动漫| 天堂va在线高清一区| 在线亚洲国产精品网| 国产精品国产三级国产专区52| 国产精品自在在线| av动漫免费观看| 成人自拍视频网| 亚洲视频日韩精品| 四虎成人永久免费视频| 成人国产精品免费观看视频| 无码人妻aⅴ一区二区三区日本| 成人四虎影院| 色综合伊人色综合网站| 天天操天天干天天摸| 久久久另类综合| 国产96在线 | 亚洲| 粉嫩精品导航导航| 欧美激情视频一区| 丰满人妻一区二区| 亚洲午夜三级在线| 亚洲最大视频网| 国色天香一区二区| 成人高清在线观看| 国模雨婷捆绑高清在线| 精品国产乱码久久久久久蜜臀| 久久免费精彩视频| av一本久道久久综合久久鬼色| 欧美日韩一区二区欧美激情| 99视频在线免费| 神马午夜久久| 欧美在线视频一二三| 神马久久高清| 色8久久精品久久久久久蜜| 美女洗澡无遮挡| 久久精品99国产精品日本| 亚洲欧洲精品在线观看| 国产不卡精品在线| 九九热在线精品视频| 蜜臀久久久久久999| 偷拍日韩校园综合在线| 丰满圆润老女人hd| 免费观看在线综合色| 中文字幕人成一区| 99精品在免费线中文字幕网站一区 | 精品中文字幕在线播放| 新67194成人永久网站| 日韩伦理一区二区三区av在线| jizz久久久久久| 国产欧美精品一区二区色综合| 欧美一区二区三区艳史| 成人乱码一区二区三区| 天天亚洲美女在线视频| 午夜影院黄色片| 国产综合久久久久久鬼色| 日本a在线天堂| 少妇高潮一区二区三区| 国产精品美女久久久免费| 超碰免费公开在线| 精品视频在线导航| 91国产免费视频| 亚洲国产成人av网| 韩国三级hd中文字幕| 韩国理伦片一区二区三区在线播放| 日韩av中文字幕第一页| av中文一区| 国产成人精品日本亚洲11| 欧美性xxx| 久久中文字幕国产| 蜜桃视频在线播放| 欧美一区三区二区| 69视频免费看| 亚洲国产一区二区a毛片| 日本人亚洲人jjzzjjz| 国产不卡免费视频| 亚洲人辣妹窥探嘘嘘| 欧美不卡高清| 午夜精品一区二区三区在线观看 | 免费精品视频一区二区三区| 亚洲精品成a人ⅴ香蕉片| 97高清免费视频| 国产在线观看免费麻豆| 亚洲精品在线91| 国产美女裸体无遮挡免费视频| 欧美日韩激情小视频| 人妻人人澡人人添人人爽| www久久精品| avtt中文字幕| 狠狠久久亚洲欧美| 男操女免费网站| 麻豆精品网站| 免费国产a级片| 午夜欧美理论片| 亚洲最大免费| 成人3d动漫在线观看| 精品免费二区三区三区高中清不卡 | 国产美女高潮久久白浆| 国产亚洲成av人片在线观看| 久热精品视频在线观看| 成人在线观看网站| 国产丝袜高跟一区| 少妇高潮久久久| 日韩精品一区在线| av在线资源观看| 欧美老肥妇做.爰bbww| 日韩国产亚洲欧美| 好吊成人免视频| 91午夜视频在线观看| 一个色综合av| 国产女人被狂躁到高潮小说| 一区免费观看视频| 可以免费看av的网址| 国产精品天天看| 欧美大喷水吹潮合集在线观看| 国产高清精品久久久久| 国产精品探花在线播放| 麻豆专区一区二区三区四区五区| 欧美国产亚洲一区| 一本色道精品久久一区二区三区 | 欧美一级久久久| 亚洲一级视频在线观看| 欧美中文字幕一区| 性高潮视频在线观看| 粉嫩老牛aⅴ一区二区三区| 国偷自拍第113页| 疯狂做受xxxx欧美肥白少妇| 国产又黄又爽又色| 黄色一区二区在线| 日韩av大片在线观看| 色爱区综合激月婷婷| 欧美日韩在线视频播放| 精品1区2区3区| 国产精品无码天天爽视频| 欧美一卡二卡在线观看| 亚洲高清精品视频| 亚洲黄色在线看| 全部免费毛片在线播放网站| 亚洲精品自拍第一页| 天堂av在线资源| 亚洲性生活视频| av亚洲在线| 欧美黄色小视频| 美女高潮在线观看| 国产成人自拍视频在线观看| 国产一区精品福利| 俄罗斯精品一区二区三区| 久久99精品国产自在现线| 蜜桃999成人看片在线观看| 欧美精品系列| 一本色道久久88亚洲精品综合| 在线精品一区二区| 人妻精品无码一区二区三区| 日韩影院免费视频| 伊人免费视频二| www.欧美色图| 超薄肉色丝袜一二三| 亚洲精品福利视频网站| 欧美三级一区二区三区| 欧美日韩aaaaaa| 黄色片网站免费在线观看| 亚洲人成电影在线观看天堂色| 色影院视频在线| 久久久久久国产精品| 成人黄色图片网站| 99免费在线观看视频| 视频一区欧美| 中文字幕av日韩精品| 最新成人av网站| 国产精品视频分类| 不卡av免费在线观看| 人妻无码一区二区三区免费| 亚洲成国产人片在线观看| 中文字幕91爱爱| 亚洲第一区第一页| 日本亚洲精品| 欧美主播福利视频| 91成人app| 欧美成ee人免费视频| 制服丨自拍丨欧美丨动漫丨| 久久久久久久久久久黄色| 强行糟蹋人妻hd中文| 日本丰满少妇一区二区三区| 性生交大片免费看女人按摩| 一区二区三区高清国产| a天堂资源在线| 91久久精品久久国产性色也91| 竹菊久久久久久久| 成年人深夜视频| 六月丁香婷婷久久| 人妻大战黑人白浆狂泄| 五月天久久比比资源色| a级片在线免费看| 中文字幕av一区中文字幕天堂| www.综合| 国产欧美欧洲| 欧美在线看片| 小明看看成人免费视频| 久久久久国产精品麻豆ai换脸| 久久伊人成人网| 51精品久久久久久久蜜臀| 99青草视频在线播放视| 日本精品一区二区三区在线| 女同久久另类99精品国产| 糖心vlog在线免费观看| 另类小说视频一区二区| 欧美成人国产精品一区二区| 精品电影在线观看| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 久草视频在线看| 69av在线播放| 免费看久久久| 免费在线看黄色片| 国产美女一区二区三区| 亚洲精品91在线| 一本大道久久a久久综合婷婷| 96亚洲精品久久久蜜桃| 曰本色欧美视频在线| 777午夜精品电影免费看| 欧美三级网色| 三级久久三级久久久| 国产黄色大片免费看| 欧美性猛交xxxx黑人交| 成年人视频在线观看免费| 国产精品久久视频| 97精品一区| 欧洲在线免费视频| 一区二区在线观看免费| www.国产.com| 久久人人爽人人| 欧美自拍视频| www黄色在线| 中文成人综合网| 一区二区日韩视频| 久久成人综合视频| 国产精品xxxav免费视频| 成人小视频在线观看免费| 国产精品1区在线| 中文日韩电影网站| 91吃瓜在线观看| 欧美日韩国产综合视频在线| 日本大胆欧美人术艺术动态| 999久久久国产| 欧美一区二区日韩| 91色在线看| 日韩精品大片| 激情国产一区二区| 久久精品久久国产| 亚洲男人的天堂在线播放| 成人在线观看免费视频| 国产又黄又爽免费视频| 成人一级片在线观看| 欧产日产国产69| 久久精品久久精品亚洲人| 大型av综合网站| 国产精品wwwww| 亚洲男同性恋视频| 天堂中文字幕av| 国产精品美女久久久免费| 欧美另类视频| 先锋影音av在线| 日韩欧美亚洲国产精品字幕久久久| 国产精品论坛| 伊人情人网综合| gogogo免费视频观看亚洲一| 在线观看亚洲黄色| 欧美巨大黑人极品精男| 伊人久久大香线蕉综合网蜜芽| 激情五月婷婷基地| 亚洲国产精品一区二区久久| 国产小视频免费在线观看| 91国产丝袜在线放| 久久综合导航| 久草资源在线视频| 在线电影欧美日韩一区二区私密| 成人动态视频| 可以看污的网站|