精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小羊駝背后的英雄,伯克利開源LLM推理與服務庫:GPU減半、吞吐數十倍猛增

人工智能 新聞
大模型時代,各種優化方案被提出,這次吞吐量、內存占用大等問題被拿下了。

隨著大語言模型(LLM)的不斷發展,這些模型在很大程度上改變了人類使用 AI 的方式。然而,實際上為這些模型提供服務仍然存在挑戰,即使在昂貴的硬件上也可能慢得驚人。

現在這種限制正在被打破。最近,來自加州大學伯克利分校的研究者開源了一個項目 vLLM,該項目主要用于快速 LLM 推理和服務。vLLM 的核心是 PagedAttention,這是一種新穎的注意力算法,它將在操作系統的虛擬內存中分頁的經典思想引入到 LLM 服務中。

配備了 PagedAttention 的 vLLM 將 LLM 服務狀態重新定義:它比 HuggingFace Transformers 提供高達 24 倍的吞吐量,而無需任何模型架構更改。


圖片

項目地址:https://github.com/vllm-project/vllm

總結而言,vLLM 具有如下特點:

  • 最先進的服務吞吐量;
  • PagedAttention 可以有效的管理注意力的鍵和值;
  • 動態批處理請求;
  • 優化好的 CUDA 內核;
  • 與流行的 HuggingFace 模型無縫集成;
  • 高吞吐量服務與各種解碼算法,包括并行采樣、beam search 等等;
  • 張量并行以支持分布式推理;
  • 流輸出;
  • 兼容 OpenAI 的 API 服務。

vLLM 還可以無縫支持許多 Huggingface 模型,包括以下架構:

  • GPT-2 (gpt2、gpt2-xl 等);
  • GPTNeoX (EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b 等);
  • LLaMA (lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b 等)
  • OPT (facebook/opt-66b、facebook/opt-iml-max-30b 等)。

值得一提的是,vLLM 已被部署在 Chatbot Arena 和 Vicuna 中。項目作者之一 Zhuohan Li 表示,自發布以來,vLLM 一直是 Chatbot Arena 和 Vicuna Demo 背后的無名英雄,它能處理高峰流量并高效地為流行模型提供服務。它已將 LMSYS(一個開放的研究組織,旨在讓每個人都能訪問大型模型) 使用的 GPU 數量減少了一半,同時每天平均處理 30K 次對話。

圖片

vLLM 性能如何?

該研究將 vLLM 的吞吐量與最流行的 LLM 庫 HuggingFace Transformers (HF),以及之前具有 SOTA 吞吐量的 HuggingFace Text Generation Inference(TGI)進行了比較。此外,該研究將實驗設置分為兩種:LLaMA-7B,硬件為 NVIDIA A10G GPU;另一種為 LLaMA-13B,硬件為 NVIDIA A100 GPU (40GB)。他們從 ShareGPT 數據集中采樣輸入 / 輸出長度。結果表明,vLLM 的吞吐量比 HF 高 24 倍,比 TGI 高 3.5 倍。

vLLM 的吞吐量比 HF 高 14 倍 - 24 倍,比 TGI 高 2.2 倍 - 2.5 倍。


圖片

vLLM 的吞吐量比 HF 高 8.5 - 15 倍,比 TGI 高 3.3 - 3.5 倍。

PagedAttention:解決內存瓶頸

該研究發現,在 vLLM 庫中 LLM 服務的性能受到內存瓶頸的影響。在自回歸解碼過程中,所有輸入到 LLM 的 token 會產生注意力鍵和值的張量,這些張量保存在 GPU 內存中以生成下一個 token。這些緩存鍵和值的張量通常被稱為 KV 緩存,其具有:

  • 內存占用大:在 LLaMA-13B 中,緩存單個序列最多需要 1.7GB 內存;
  • 動態且不可預測:KV 緩存的大小取決于序列長度,這是高度可變和不可預測的。因此,這對有效地管理 KV 緩存挑戰較大。該研究發現,由于碎片化和過度保留,現有系統浪費了 60% - 80% 的內存。

為了解決這個問題,該研究引入了 PagedAttention,這是一種受操作系統中虛擬內存和分頁經典思想啟發的注意力算法。與傳統的注意力算法不同,PagedAttention 允許在非連續的內存空間中存儲連續的鍵和值。具體來說,PagedAttention 將每個序列的 KV 緩存劃分為塊,每個塊包含固定數量 token 的鍵和值。在注意力計算期間,PagedAttention 內核可以有效地識別和獲取這些塊。

圖片

PagedAttention:KV 緩存被劃分成塊,塊不需要在內存空間中連續。

因為塊在內存中不需要連續,因而可以用一種更加靈活的方式管理鍵和值,就像在操作系統的虛擬內存中一樣:可以將塊視為頁面,將 token 視為字節,將序列視為進程。序列的連續邏輯塊通過塊表映射到非連續物理塊中。物理塊在生成新 token 時按需分配。

使用 PagedAttention 的請求的示例生成過程。

在 PagedAttention 中,內存浪費只會發生在序列的最后一個塊中。這使得在實踐中可以實現接近最佳的內存使用,僅浪費不到 4 %。這種內存效率的提升被證明非常有用,允許系統將更多序列進行批處理,提高 GPU 使用率,顯著提升吞吐量。

PagedAttention 還有另一個關鍵優勢 —— 高效的內存共享。例如在并行采樣中,多個輸出序列是由同一個提示(prompt)生成的。在這種情況下,提示的計算和內存可以在輸出序列中共享。

圖片

并行采樣示例。

PagedAttention 自然地通過其塊表格來啟動內存共享。與進程共享物理頁面的方式類似,PagedAttention 中的不同序列可以通過將它們的邏輯塊映射到同一個物理塊的方式來共享塊。為了確保安全共享,PagedAttention 會對物理塊的引用計數進行跟蹤,并實現寫時復制(Copy-on-Write)機制。

圖片

對于對多輸出進行采樣的請求,它的示例生成過程是這樣的。

PageAttention 的內存共享大大減少了復雜采樣算法的內存開銷,例如并行采樣和集束搜索的內存使用量降低了 55%。這可以轉化為高達 2.2 倍的吞吐量提升。這種采樣方法也在 LLM 服務中變得實用起來。

PageAttention 成為了 vLLM 背后的核心技術。vLLM 是 LLM 推理和服務引擎,為各種具有高性能和易用界面的模型提供支持。

是什么在背后默默支撐 Vicuna 和 Chatbot Arena

今年 4 月,LMSYS 公開發布了流行的 Vicuna(小羊駝)聊天機器人模型。從那時起,Vicuna 就在 Chatbot Arena 中為數百萬用戶提供服務。最開始,LMSYS 的開源聊天機器人 FastChat 采用基于 HF Transformer 的服務后端來為聊天 demo 提供服務。

隨著 demo 變得越來越流行,峰值流量增加了幾倍,導致 HF 后端成為一個嚴重的瓶頸。LMSYS 和 vLLM 團隊展開合作并很快開發了 FastChat-vLLM 集成,使用 vLLM 作為新的后端,從而滿足不斷增長的需求(5 倍流量)。在 LMSYS 早期的內部微基準測試中,vLLM 服務后端可以實現的吞吐量是初始 HF 后端的 30 倍。

此外,自 4 月中旬以來,Vicuna、Koala 和 LLaMA 等最受歡迎的模型都已經成功地使用 FastChat-vLLM 集成服務。LMSYS 以 FastChat 為多模型聊天服務前端,以 vLLM 作為推理后端,這樣可以利用大學贊助的有限 GPU,高吞吐量、低延遲地為數百萬用戶提供 Vicuna。

目前,LMSYS 正在將 vLLM 的使用范圍擴展到更廣泛的大模型,包括 Databricks Dolly、LAION 的 OpenAsssiant、Stability AI 的 stableLM。對于更多模型的支持正在開發并即將到來。


圖片

4 月至 5 月,Chatbot Arena 中 FastChat-vLLM 集成服務的請求情況。事實上,Chatbot Arena 中超過一半的請求都使用 vLLM 作為推理后端。

vLLM 的使用還顯著降低了運營成本。借助 vLLM,LMSYS 能夠將用于處理上述流量的 GPU 數量減少 50%。vLLM 平均每天可以處理 30k 請求,峰值為 60k,這說明了 vLLM 的穩健性很強。

vLLM 的安裝與使用

你可以通過以下 pip 命令安裝 vLLM。

$ pip install vllm

vLLM 可以用于離線推理和在線服務。在使用 vLLM 進行離線推理任務時,你需要導入 vLLM 并在 Python 腳本中使用 LLM 類。

from vllm import LLM
prompts = ["Hello, my name is", "The capital of France is"]  # Sample prompts.
llm = LLM (model="lmsys/vicuna-7b-v1.3")  # Create an LLM.
outputs = llm.generate (prompts)  # Generate texts from the prompts.

在使用 vLLM 進行在線服務時,你可以通過以下命令啟動一個兼容 OpenAI API 的服務器。

$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3

你還可以利用與 OpenAI API 相同的格式來查詢服務器。

$ curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
        "model": "lmsys/vicuna-7b-v1.3",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'


責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-21 13:20:14

系統模型

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 13:54:37

模型AI

2023-09-27 12:56:56

AI模型

2024-09-25 09:37:16

2025-06-03 08:38:00

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-01-22 15:21:00

2025-04-18 08:42:52

模型推理AI

2016-07-07 15:38:07

京東

2025-04-23 09:10:00

AI系統模型

2022-03-28 13:25:42

AI扶貧機器之心

2025-01-24 15:30:00

2025-07-03 09:49:43

2024-12-18 07:20:00

2025-01-20 13:08:25

2025-04-30 09:09:00

2024-08-19 14:05:00

2017-12-06 08:06:47

IBMGPU機器學習

2009-06-05 09:11:19

中國電信VDSL2ADSL
點贊
收藏

51CTO技術棧公眾號

亚洲网友自拍偷拍| 九色综合狠狠综合久久| 亚洲欧洲在线看| 亚洲36d大奶网| h网站久久久| 99久久精品国产一区| 国产精品久久一区| 久久午夜鲁丝片午夜精品| 小嫩嫩12欧美| 91精品国产aⅴ一区二区| 波多野结衣之无限发射| 最新电影电视剧在线观看免费观看| 国产在线一区二区| 日韩免费在线免费观看| 国产高潮流白浆| 香蕉久久夜色精品国产更新时间| 欧美精品在线视频| 国产中文字幕免费观看| bestiality新另类大全| 国产日韩综合av| 国产成人看片| 国产一区二区三区在线观看| 一区二区三区四区五区在线| 日韩在线观看免费av| 亚洲黄色在线网站| 中文字幕一区图| 3atv一区二区三区| 99草草国产熟女视频在线| 欧美性爽视频| 最近中文字幕一区二区三区| 日本午夜精品一区二区三区| 人成网站在线观看| 国产精品456露脸| 国产精品亚洲片夜色在线| 一级片中文字幕| 激情婷婷欧美| 欧美成人剧情片在线观看| 妖精视频在线观看免费 | 成人精品久久久| 黄色片视频免费| 国产欧美日韩一级| 午夜美女久久久久爽久久| 清纯粉嫩极品夜夜嗨av| 天天射成人网| yellow中文字幕久久| 久久久久亚洲av无码a片| 亚洲精品国产动漫| 日韩av在线最新| 182在线视频| julia中文字幕一区二区99在线| 91精品国产免费| 日韩欧美理论片| 祥仔av免费一区二区三区四区| 欧美性生活影院| 在线观看免费成人av| 亚洲日本网址| 欧美三级三级三级| 小泽玛利亚视频在线观看| 免费观看成人性生生活片| 一本大道久久a久久精二百| 国产在线青青草| 成人福利av| 91国产免费看| 亚洲 激情 在线| 综合欧美精品| 日韩一区二区三区在线视频| 中文字幕制服丝袜| 国产精品丝袜在线播放| 日韩精品一二三四区| 亚洲一区二区观看| 欧美限制电影| 久久艹在线视频| 久久久久成人网站| 性色一区二区三区| 国产精品人成电影在线观看| 中文字幕一区二区三区四区视频 | 在线免费看黄色片| 欧美色资源站| 中文字幕亚洲一区| 中文字幕在线有码| 国产欧美日韩一级| 国产精品主播视频| 亚洲高清在线观看视频| 91在线视频播放地址| 日韩国产在线一区| 中文字幕中文字幕在线中高清免费版| 亚洲一区二区av电影| 欧美日韩在线视频一区二区三区| 国产成人免费精品| 精品久久久久一区二区国产| 成人免费看aa片| 国产精品99久久| 亚洲18私人小影院| 中国老头性行为xxxx| 成人综合在线观看| 日产精品一线二线三线芒果| 国产精品久久麻豆| 亚洲成人免费在线| 黄色免费网址大全| 都市激情亚洲| 日韩在线视频国产| 天海翼一区二区| 男女性色大片免费观看一区二区| 国产精品久久久对白| 国产爆初菊在线观看免费视频网站| 亚洲三级在线免费观看| 青青草原av在线播放| 精品视频在线一区| 亚洲天堂精品在线| 久久久久久久九九九九| 日本特黄久久久高潮| 国产高清在线精品一区二区三区| 91在线高清| 狠狠做深爱婷婷久久综合一区| 三区视频在线观看| 精品影片在线观看的网站| 欧美大学生性色视频| 国产精品第六页| 97久久超碰国产精品| 日日噜噜夜夜狠狠久久丁香五月| 成年美女黄网站色大片不卡| 欧美精品一区二区三区蜜桃| 亚洲色图100p| 久久久噜噜噜久久狠狠50岁| 国产一区二区高清视频| 国产传媒在线播放| 欧美日韩一区二区三区免费看| 免费成人蒂法网站| 国产综合视频| 亚洲一区二区三区久久| 午夜视频成人| 在线国产亚洲欧美| 熟女高潮一区二区三区| 一区二区三区导航| 国产欧美欧洲| 人妖欧美1区| 日韩视频一区二区| 翔田千里88av中文字幕| 久久黄色级2电影| 亚洲高清资源综合久久精品| 国产亚洲一区二区手机在线观看 | 国产精品无码一区二区三区免费| 欧美 亚欧 日韩视频在线 | 北条麻妃在线一区二区免费播放 | 欧美jizz18| 在线日韩日本国产亚洲| 国产成人综合欧美精品久久| aaa欧美色吧激情视频| 成人免费播放器| 风间由美中文字幕在线看视频国产欧美| 九九视频这里只有精品| 99久久久久成人国产免费| 亚洲欧洲美洲综合色网| 天堂av.com| 欧美另类综合| 国产精品免费视频一区二区| 啊啊啊久久久| 国产偷亚洲偷欧美偷精品| 亚洲免费在线视频观看| 久久亚区不卡日本| 搡女人真爽免费午夜网站| 不卡中文字幕| 成人淫片在线看| 欧美家庭影院| 亚洲精品电影网| 国产suv精品一区二区33| 中文文精品字幕一区二区| 中文久久久久久| 影视亚洲一区二区三区| 99久热re在线精品996热视频| 国产99re66在线视频| 亚洲精品福利在线| 波多野结衣网站| 中文字幕在线不卡一区二区三区| 久久综合在线观看| 亚洲国产黄色| 日韩欧美一区二区在线观看 | bl在线肉h视频大尺度| 亚洲精品720p| 中文字幕乱码无码人妻系列蜜桃| 中文字幕日韩一区二区| 精品久久久久久无码人妻| 国产精品亚洲综合色区韩国| 四虎永久国产精品| 国产精品视频首页| 欧美伊久线香蕉线新在线| 91精品大全| 日韩精品中文字幕一区二区三区 | 久久综合图片| 国产欧美综合一区| 亚洲另类av| 91久久精品国产91久久性色| 2021天堂中文幕一二区在线观| 亚洲桃花岛网站| 亚洲精品国产suv一区| 色视频一区二区| 69av视频在线| 日本一区二区三区四区| 久久久久99人妻一区二区三区| 亚久久调教视频| 亚洲av首页在线| 国产亚洲一区| 国产精品三区在线| 另类一区二区| 欧美壮男野外gaytube| 亚洲丝袜一区| 国产一区二区三区精品久久久| 精品国产999久久久免费| 色综合天天综合色综合av| 欧美手机在线观看| 国产欧美一区二区精品婷婷| 精品人妻伦一二三区久| 国内一区二区视频| 成人黄色一区二区| 亚洲毛片网站| 米仓穗香在线观看| 青青草国产免费一区二区下载| 国产亚洲精品自在久久| 不卡的国产精品| 国产精品国产亚洲伊人久久| 国产理论在线| 欧美大片在线影院| av片哪里在线观看| 中文字幕亚洲欧美在线| 黄色av网站在线| 日韩精品极品在线观看播放免费视频| av网站在线观看免费| 欧美视频在线观看一区二区| 久久久久在线视频| 懂色av影视一区二区三区| 午夜偷拍福利视频| 一个色妞综合视频在线观看| 亚洲天堂网av在线| 国产精品久久久久久福利一牛影视 | 日韩电影免费在线观看中文字幕 | 99久久99久久精品免费看蜜桃 | 中文无码日韩欧| 亚洲一区美女视频在线观看免费| 国产精品亚洲成在人线| 国产精品久久久久久一区二区| 色偷偷色偷偷色偷偷在线视频| 97在线日本国产| 国产免费拔擦拔擦8x高清在线人 | 国产视频精品va久久久久久| 日本高清视频www| 欧美videossexotv100| www.国产精品视频| 日韩欧美综合在线| www.日日夜夜| 欧美成va人片在线观看| 亚洲精品国产av| 亚洲大尺度美女在线| 丰满岳乱妇国产精品一区| 日韩视频免费观看高清完整版在线观看 | 欧美一级艳片视频免费观看| 精品国产乱码久久久久久蜜臀网站| 欧美一二区视频| 亚洲精品国产片| 亚洲国产成人精品电影| 亚洲色图另类小说| 亚洲欧洲一区二区三区在线观看| 国产黄色在线| 日韩最新av在线| 亚洲综合伊人久久大杳蕉| 欧美第一黄网免费网站| segui88久久综合9999| 日本久久久久久久久| yiren22亚洲综合| 91久久精品国产91性色| 第四色在线一区二区| 裸模一区二区三区免费| 日韩精品第一区| 国产精品88久久久久久妇女 | 国产精品久久三区| tube国产麻豆| 午夜成人在线视频| 久久久久久无码精品大片| 欧美欧美午夜aⅴ在线观看| 99久久久国产精品无码网爆| 亚洲精品成人久久| av中文在线| 欧美日韩国产成人在线| 涩涩视频在线| 91精品国产综合久久香蕉922| 99re8这里有精品热视频免费| 久久久久网址| 999国产精品视频| 成年人看的毛片| 日韩高清在线电影| 手机看片国产精品| 91亚洲午夜精品久久久久久| 欧美a级片免费看| 亚洲大片精品永久免费| 懂色av蜜臀av粉嫩av喷吹| 日韩一区二区三区四区| 你懂的在线观看| 不卡中文字幕av| 欧美日韩免费看片| 99r国产精品视频| sdde在线播放一区二区| 日本黄色片一级片| 麻豆精品一二三| 国产精品久久久久久亚洲色| 国产精品美女久久久久久久久| 69精品久久久| 欧美高清hd18日本| 色天堂在线视频| 欧美乱妇高清无乱码| 成人国产网站| 久久久久一区二区三区| 亚洲欧美综合| 国产精品拍拍拍| 99国产精品久久| 四虎免费在线视频| 欧美日韩一区二区三区在线| 亚洲欧美日本在线观看| 欧美成人黄色小视频| 成人性片免费| 欧美成人蜜桃| 在线国产欧美| 日韩精品xxx| 国产精品久久久久影院| 国产成人无码av| 日韩av网站导航| 黑人精品视频| 99re视频在线| 在线成人直播| 波多野结衣在线免费观看| 国产精品乱人伦一区二区| 日本高清不卡码| 亚洲欧美激情在线视频| 九色porny丨首页入口在线| 高清国产一区| 欧美视频亚洲视频| 免费欧美一级片| 成人欧美一区二区三区视频网页| 男操女视频网站| 亚洲人精品午夜在线观看| 国产夫妻在线播放| 精品国产一区二区三区免费| 雨宫琴音一区二区在线| 波多野结衣中文字幕在线播放| 亚洲乱码国产乱码精品精98午夜| 夜夜嗨av禁果av粉嫩avhd| 尤物九九久久国产精品的特点 | 91精品视频网站| 国产精品成人av| 日本美女久久久| 亚洲精品自拍动漫在线| 99久久免费国产精精品| 欧美另类极品videosbest最新版本| 57pao成人永久免费| 一级全黄肉体裸体全过程| 国产一区二区导航在线播放| 国产少妇在线观看| 日韩一卡二卡三卡四卡| 黑人精品视频| 精品久久中出| 久久国产精品久久久久久电车| 自拍偷拍视频亚洲| 欧美在线影院一区二区| 91网页在线观看| 91精品视频免费| 亚洲韩国在线| 国内一区二区视频| 日韩免费一二三区| 亚洲精品自在久久| 成人在线视频免费| 一级黄色免费在线观看| 国产成人精品1024| 国产91精品一区| 夜夜嗨av色综合久久久综合网| 国产情侣一区二区三区| 无颜之月在线看| 99在线热播精品免费| 亚洲黄网在线观看| 久久av资源网站| 色橹橹欧美在线观看视频高清 | 国产不卡在线一区| 五月婷婷中文字幕| 在线观看亚洲区| 凹凸成人在线| 簧片在线免费看| 一区二区三区成人| 日韩专区一区二区| 成人日韩在线电影| 国产精品免费看| 五月天免费网站| 亚洲国产欧美在线成人app| 日韩精品免费观看视频| 51xx午夜影福利| 久久久综合精品| 成人av免费播放| 欧美最猛性xxxxx(亚洲精品)| 久久久久久久久久久久久久久久久久| 亚洲女则毛耸耸bbw| 欧美日韩精品一区二区三区| f2c人成在线观看免费视频| 亚洲日本欧美在线| www..com久久爱|