精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用Accelerate庫在多GPU上進行LLM推理

人工智能
大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長,推理的計算需求也顯著增加。為了應對這一挑戰利用多個gpu變得至關重要。

大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長,推理的計算需求也顯著增加。為了應對這一挑戰利用多個gpu變得至關重要。

所以本文將在多個gpu上并行執行推理,主要包括:Accelerate庫介紹,簡單的方法與工作代碼示例和使用多個gpu的性能基準測試。

本文將使用多個3090將llama2-7b的推理擴展在多個GPU上

基本示例

我們首先介紹一個簡單的示例來演示使用Accelerate進行多gpu“消息傳遞”。

from accelerate import Accelerator
 from accelerate.utils import gather_object
 
 accelerator = Accelerator()
 
 # each GPU creates a string
 message=[ f"Hello this is GPU {accelerator.process_index}" ] 
 
 # collect the messages from all GPUs
 messages=gather_object(message)
 
 # output the messages only on the main process with accelerator.print() 
 accelerator.print(messages)

輸出如下:

['Hello this is GPU 0', 
  'Hello this is GPU 1', 
  'Hello this is GPU 2', 
  'Hello this is GPU 3', 
  'Hello this is GPU 4']

多GPU推理

下面是一個簡單的、非批處理的推理方法。代碼很簡單,因為Accelerate庫已經幫我們做了很多工作,我們直接使用就可以:

from accelerate import Accelerator
 from accelerate.utils import gather_object
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from statistics import mean
 import torch, time, json
 
 accelerator = Accelerator()
 
 # 10*10 Prompts. Source: https://www.penguin.co.uk/articles/2022/04/best-first-lines-in-books
 prompts_all=[
    "The King is dead. Long live the Queen.",
    "Once there were four children whose names were Peter, Susan, Edmund, and Lucy.",
    "The story so far: in the beginning, the universe was created.",
    "It was a bright cold day in April, and the clocks were striking thirteen.",
    "It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife.",
    "The sweat wis lashing oafay Sick Boy; he wis trembling.",
    "124 was spiteful. Full of Baby's venom.",
    "As Gregor Samsa awoke one morning from uneasy dreams he found himself transformed in his bed into a gigantic insect.",
    "I write this sitting in the kitchen sink.",
    "We were somewhere around Barstow on the edge of the desert when the drugs began to take hold.",
 ] * 10
 
 # load a base model and tokenizer
 model_path="models/llama2-7b"
 model = AutoModelForCausalLM.from_pretrained(
    model_path,    
    device_map={"": accelerator.process_index},
    torch_dtype=torch.bfloat16,
 )
 tokenizer = AutoTokenizer.from_pretrained(model_path)   
 
 # sync GPUs and start the timer
 accelerator.wait_for_everyone()
 start=time.time()
 
 # divide the prompt list onto the available GPUs 
 with accelerator.split_between_processes(prompts_all) as prompts:
    # store output of generations in dict
    results=dict(outputs=[], num_tokens=0)
 
    # have each GPU do inference, prompt by prompt
    for prompt in prompts:
        prompt_tokenized=tokenizer(prompt, return_tensors="pt").to("cuda")
        output_tokenized = model.generate(**prompt_tokenized, max_new_tokens=100)[0]
 
        # remove prompt from output 
        output_tokenized=output_tokenized[len(prompt_tokenized["input_ids"][0]):]
 
        # store outputs and number of tokens in result{}
        results["outputs"].append( tokenizer.decode(output_tokenized) )
        results["num_tokens"] += len(output_tokenized)
 
    results=[ results ] # transform to list, otherwise gather_object() will not collect correctly
 
 # collect results from all the GPUs
 results_gathered=gather_object(results)
 
 if accelerator.is_main_process:
    timediff=time.time()-start
    num_tokens=sum([r["num_tokens"] for r in results_gathered ])
 
    print(f"tokens/sec: {num_tokens//timediff}, time {timediff}, total tokens {num_tokens}, total prompts {len(prompts_all)}")

使用多個gpu會導致一些通信開銷:性能在4個gpu時呈線性增長,然后在這種特定設置中趨于穩定。當然這里的性能取決于許多參數,如模型大小和量化、提示長度、生成的令牌數量和采樣策略,所以我們只討論一般的情況

1 GPU: 44個token /秒,時間:225.5s

2 gpu: 88個token /秒,時間:112.9s

3 gpu: 128個token /秒,時間:77.6s

4 gpu: 137個token /秒,時間:72.7s

5 gpu: 119個token /秒,時間:83.8s

在多GPU上進行批處理

現實世界中,我們可以使用批處理推理來加快速度。這會減少GPU之間的通訊,加快推理速度。我們只需要增加prepare_prompts函數將一批數據而不是單條數據輸入到模型即可:

from accelerate import Accelerator
 from accelerate.utils import gather_object
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from statistics import mean
 import torch, time, json
 
 accelerator = Accelerator()
 
 def write_pretty_json(file_path, data):
    import json
    with open(file_path, "w") as write_file:
        json.dump(data, write_file, indent=4)
 
 # 10*10 Prompts. Source: https://www.penguin.co.uk/articles/2022/04/best-first-lines-in-books
 prompts_all=[
    "The King is dead. Long live the Queen.",
    "Once there were four children whose names were Peter, Susan, Edmund, and Lucy.",
    "The story so far: in the beginning, the universe was created.",
    "It was a bright cold day in April, and the clocks were striking thirteen.",
    "It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife.",
    "The sweat wis lashing oafay Sick Boy; he wis trembling.",
    "124 was spiteful. Full of Baby's venom.",
    "As Gregor Samsa awoke one morning from uneasy dreams he found himself transformed in his bed into a gigantic insect.",
    "I write this sitting in the kitchen sink.",
    "We were somewhere around Barstow on the edge of the desert when the drugs began to take hold.",
 ] * 10
 
 # load a base model and tokenizer
 model_path="models/llama2-7b"
 model = AutoModelForCausalLM.from_pretrained(
    model_path,    
    device_map={"": accelerator.process_index},
    torch_dtype=torch.bfloat16,
 )
 tokenizer = AutoTokenizer.from_pretrained(model_path)   
 tokenizer.pad_token = tokenizer.eos_token
 
 # batch, left pad (for inference), and tokenize
 def prepare_prompts(prompts, tokenizer, batch_size=16):
    batches=[prompts[i:i + batch_size] for i in range(0, len(prompts), batch_size)]  
    batches_tok=[]
    tokenizer.padding_side="left"     
    for prompt_batch in batches:
        batches_tok.append(
            tokenizer(
                prompt_batch, 
                return_tensors="pt", 
                padding='longest', 
                truncatinotallow=False, 
                pad_to_multiple_of=8,
                add_special_tokens=False).to("cuda") 
            )
    tokenizer.padding_side="right"
    return batches_tok
 
 # sync GPUs and start the timer
 accelerator.wait_for_everyone()    
 start=time.time()
 
 # divide the prompt list onto the available GPUs 
 with accelerator.split_between_processes(prompts_all) as prompts:
    results=dict(outputs=[], num_tokens=0)
 
    # have each GPU do inference in batches
    prompt_batches=prepare_prompts(prompts, tokenizer, batch_size=16)
 
    for prompts_tokenized in prompt_batches:
        outputs_tokenized=model.generate(**prompts_tokenized, max_new_tokens=100)
 
        # remove prompt from gen. tokens
        outputs_tokenized=[ tok_out[len(tok_in):] 
            for tok_in, tok_out in zip(prompts_tokenized["input_ids"], outputs_tokenized) ] 
 
        # count and decode gen. tokens 
        num_tokens=sum([ len(t) for t in outputs_tokenized ])
        outputs=tokenizer.batch_decode(outputs_tokenized)
 
        # store in results{} to be gathered by accelerate
        results["outputs"].extend(outputs)
        results["num_tokens"] += num_tokens
 
    results=[ results ] # transform to list, otherwise gather_object() will not collect correctly
 
 # collect results from all the GPUs
 results_gathered=gather_object(results)
 
 if accelerator.is_main_process:
    timediff=time.time()-start
    num_tokens=sum([r["num_tokens"] for r in results_gathered ])
 
    print(f"tokens/sec: {num_tokens//timediff}, time elapsed: {timediff}, num_tokens {num_tokens}")

可以看到批處理會大大加快速度。

1 GPU: 520 token /sec,時間:19.2s

2 gpu: 900 token /sec,時間:11.1s

3 gpu: 1205個token /秒,時間:8.2s

4 gpu: 1655 token /sec,時間:6.0s

5 gpu: 1658 token /sec,時間:6.0s

總結

截止到本文為止,llama.cpp,ctransformer還不支持多GPU推理,好像llama.cpp在6月有個多GPU的merge,但是我沒看到官方更新,所以這里暫時確定不支持多GPU。如果有小伙伴確認可以支持多GPU請留言。

huggingface的Accelerate包則為我們使用多GPU提供了一個很方便的選擇,使用多個GPU推理可以顯著提高性能,但gpu之間通信的開銷隨著gpu數量的增加而顯著增加。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2024-03-25 14:22:07

大型語言模型GaLore

2020-03-07 18:51:11

EclipseFedoraPHP

2009-01-06 10:04:44

CygwinGCCGUI

2024-02-04 00:00:00

Triton格式TensorRT

2022-02-09 15:29:35

Java組件編程語言

2010-02-24 15:19:38

ibmdwLinux

2010-12-09 09:12:28

2009-04-14 18:50:55

Nehalem惠普intel

2020-02-18 09:45:44

云計算云平臺IT

2025-04-24 10:26:40

2024-10-16 21:49:24

2023-06-20 08:00:00

2025-04-23 15:49:37

2023-09-01 15:22:49

人工智能數據

2025-03-18 08:00:00

大語言模型KubeMQOpenAI

2024-01-11 16:24:12

人工智能RAG

2025-05-09 01:00:00

大語言模型LLMGPU內存

2025-10-10 02:00:00

2025-06-05 11:51:14

NVIDIAProRLLLM

2024-07-26 08:59:33

點贊
收藏

51CTO技術棧公眾號

成人做爰www免费看视频网站| 日韩av在线网| 免费看黄色a级片| a级片在线免费看| 亚洲精品人人| 亚洲欧美中文日韩在线| 91丨九色丨蝌蚪| av电影在线地址| 久久久综合九色合综国产精品| 国产精品久久久久影院日本| 欧美国产日韩在线观看成人| 午夜精品福利影院| 欧美日韩性生活| 国产 欧美 日本| 成人午夜影视| 成人免费av网站| 国产精品久久久久av| 永久看片925tv| 亚洲裸色大胆大尺寸艺术写真| 欧美伦理视频网站| 精品视频免费在线播放| 免费av在线| 26uuu欧美日本| 3d蒂法精品啪啪一区二区免费| 亚洲黄网在线观看| 欧美啪啪一区| 久久精品国产亚洲| 人妻精品久久久久中文字幕| 国产青青草视频| 欧美丰满日韩| 亚洲男人天堂手机在线| 国产午夜在线一区二区三区| 欧美电影在线观看网站| 一个色综合av| 正在播放亚洲| 91最新在线| 国产视频一区二区在线观看| 91精品入口蜜桃| 国语对白在线播放| 国产精品黑丝在线播放| 国产亚洲欧洲黄色| 欧美老熟妇乱大交xxxxx| 成人午夜三级| 精品日韩在线观看| 国产xxxxhd| 国产精品欧美一区二区三区不卡 | 波波电影院一区二区三区| 成人性生交大片免费看视频直播| 中文字幕观看视频| 日韩激情在线观看| 国产精品精品一区二区三区午夜版| 国产成人亚洲精品自产在线 | 国内精品伊人久久| 久久久全国免费视频| 午夜亚洲福利| 久久99久久99精品免观看粉嫩| 色老板免费视频| 91精品一区二区三区综合| www.日韩av.com| 日本午夜在线观看| 欧美在线1区| 欧美激情综合亚洲一二区| 欧美人妻一区二区| 雨宫琴音一区二区在线| 亚洲91av视频| 精品人妻无码一区二区性色| 三级在线观看一区二区| 国产精品日韩精品| 91久久精品国产91性色69| 精品一区二区三区在线视频| 亚洲a成v人在线观看| 性欧美18一19性猛交| 成人永久aaa| 欧美极品一区二区| 99riav在线| 亚洲欧美日韩在线| 精品无码国产一区二区三区av| 多野结衣av一区| 在线观看日韩电影| 亚洲第一天堂久久| 成人av激情人伦小说| 日韩的一区二区| 日本美女bbw| 欧美在线日韩| 亲爱的老师9免费观看全集电视剧| 精品一区二区无码| 国产精品一区二区久激情瑜伽| 欧美放荡办公室videos4k| 欧美xxxx×黑人性爽| 制服丝袜在线第一页| av免费看在线| 三级精品在线观看| 国产精品欧美一区二区三区奶水| 国产又黄又爽视频| av男人天堂一区| 国产精品色婷婷视频| 精品国产一级片| 久久久青草青青国产亚洲免观| 亚洲人久久久| 蜜桃av在线免费观看| 精品电影在线观看| 国产在线视频在线| 久久av日韩| 亚洲黄色免费三级| 久久99久久99精品免费看小说| 亚洲人成毛片在线播放女女| 国产美女主播一区| 四虎影视在线播放| 一区二区视频在线| 久久久久久蜜桃一区二区| 久久99精品国产自在现线| 永久555www成人免费| 国产一级二级三级| 麻豆精品久久久| 麻豆av一区二区| 欧美家庭影院| 欧美精品九九99久久| 公侵犯人妻一区二区三区| 欧美人成网站| 成人免费激情视频| 国产乱视频在线观看| 午夜精品在线视频一区| 尤物网站在线看| 成人羞羞网站入口| 欧美最猛性xxxx| 国模人体一区二区| 亚洲精品日韩一| 在线观看国产中文字幕| 伊人春色之综合网| 97在线视频精品| 亚洲精品无amm毛片| 中文字幕一区二区三区在线播放| 妺妺窝人体色www在线观看| 黄色美女久久久| 欧美大片在线看| 国产美女免费看| 国产精品乱码人人做人人爱| 成年人在线观看视频免费| 日韩成人av在线资源| 国内精品久久久久久久| 亚洲精品无amm毛片| 亚洲欧美色图小说| 杨幂一区二区国产精品| 水蜜桃精品av一区二区| 国产精品高潮视频| 北岛玲一区二区三区| 欧美性猛片xxxx免费看久爱| 高潮毛片无遮挡| 久久精品网址| 日韩欧美在线观看强乱免费| 国产精品专区免费| 亚洲人成77777在线观看网| 国产又大又黄又粗| 国产性天天综合网| 国产情侣av自拍| 成人a'v在线播放| 国产一区二区丝袜高跟鞋图片| 91亚洲欧美| 91精品在线免费| 久久综合亚洲色hezyo国产| 国产大陆a不卡| 成人性生活视频免费看| 国产精品乱战久久久| 51精品在线观看| 国产综合在线观看| 欧美日韩欧美一区二区| 人妻内射一区二区在线视频| 丰满少妇一区| 久久视频在线播放| 国产成人免费看一级大黄| 一区二区免费看| 久久久国产精品无码| 久久婷婷久久| 欧美aaa在线观看| a黄色在线观看| 欧美一二区视频| 黄色小说在线观看视频| 国产在线播精品第三| 青青草视频国产| 蜜臀久久99精品久久一区二区| 国产精品主播视频| 日本视频在线观看一区二区三区| 欧美曰成人黄网| 国产不卡精品视男人的天堂 | 一本久久a久久免费精品不卡| 国产精品久久久久无码av色戒| 久色婷婷小香蕉久久| 777久久精品一区二区三区无码| 国产精品毛片久久久| 国产91精品最新在线播放| 久久精品视频观看| 亚洲精品不卡在线| 中文天堂在线资源| 一级日本不卡的影视| 夜夜春很很躁夜夜躁| 国产精品99久久久久久似苏梦涵| 国产女大学生av| 五月天激情综合网| 久久久99国产精品免费| 91嫩草国产线观看亚洲一区二区 | 中文字幕九色91在线| 亚洲精品一区二区三区区别| 91久久精品一区二区二区| 美女的奶胸大爽爽大片| 国产日韩v精品一区二区| 男人的天堂免费| 男女性色大片免费观看一区二区| 亚洲国产精品无码观看久久| 日韩亚洲精品在线观看| 国产91九色视频| 国产精品一区二区日韩| 播播国产欧美激情| 黄网在线观看| 亚洲国产精品va在线| 国产99999| 欧美日韩一区在线观看| 国产精品乱子伦| 亚洲午夜免费电影| 日韩欧美综合视频| 中文字幕不卡在线| www.久久av| jlzzjlzz亚洲日本少妇| 两女双腿交缠激烈磨豆腐| 日本aⅴ亚洲精品中文乱码| 成人观看免费完整观看| 在线观看日韩av电影| 国产精品美女在线播放| 日韩在线理论| 特级西西444www大精品视频| 露出调教综合另类| 国产精品入口免费| 亚洲视频三区| 96精品久久久久中文字幕| 欧美a一级片| 国产精品爽爽爽| 欧洲成人一区| 国产精品成人av在线| 欧美18—19sex性hd| 2023亚洲男人天堂| 免费毛片b在线观看| 久久久视频免费观看| 欧美xxxx少妇| 久久久久国产精品www| 久草在线视频福利| 一区二区三区高清不卡| 成人免费视频网站入口::| 福利电影一区二区| 伊人网综合视频| 欧美激情国产在线| 美女被啪啪一区二区| 国产精品x8x8一区二区| 国产精品三区在线| 国产 日韩 欧美| 91免费看网站| 亚洲精品在线a| 国产麻豆乱码精品一区二区三区 | 日韩精品中午字幕| 亚洲国产精彩视频| 亚洲成人久久网| 五月天久久久久久| 亚洲欧美日韩高清| 国产成年妇视频| 欧美哺乳videos| 天天躁日日躁狠狠躁喷水| 日韩欧美色综合| 天堂网2014av| 亚洲欧洲视频在线| 一广人看www在线观看免费视频| www.亚洲免费视频| 国产探花在线观看| 日本最新高清不卡中文字幕| 久久精品黄色| 成人在线观看av| 亚洲黄页在线观看| 亚洲激情一区二区三区| 婷婷综合激情| 欧美综合在线播放| 日韩精品乱码免费| 黄色片子免费看| www国产精品av| 在线视频这里只有精品| 一区二区三区91| 99re这里只有精品在线| 91精品综合久久久久久| 神马一区二区三区| 中文字幕精品久久久久| 污片在线免费观看| 日韩免费视频在线观看| 国产精品中文| 青青草国产精品| 欧美激情综合| 国产一二三区av| 成人久久久精品乱码一区二区三区| 久久久久久久久久久国产精品| 亚洲三级小视频| 成人公开免费视频| 精品日韩一区二区三区| √天堂资源地址在线官网| 久久久久久久久久国产| 草民电影神马电影一区二区| 国产精品国产精品国产专区不卡| 蜜臀91精品国产高清在线观看| 青青草视频国产| 久久精品999| 久久精品无码一区| 亚洲一区av在线| 一级黄色片免费看| 亚洲人成网站777色婷婷| 日本性爱视频在线观看| 国产在线高清精品| 欧美精品momsxxx| 国产精品专区在线| 国产精品一区二区久久精品爱涩 | 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 久久久噜久噜久久综合| 综合欧美精品| 深夜福利成人| 久久av一区二区三区| 91人妻一区二区| 亚洲视频香蕉人妖| 亚洲精品毛片一区二区三区| 亚洲精品videossex少妇| 羞羞污视频在线观看| 91精品国产综合久久男男| 成人羞羞网站入口免费| 99久久国产宗和精品1上映| 99国产精品国产精品毛片| 久久亚洲成人av| 日韩手机在线导航| 久久日韩视频| 91精品久久久久久久久| 成人一区不卡| 超碰在线97免费| 国产亚洲短视频| 五月婷婷激情视频| 亚洲欧美国产精品va在线观看| 狠狠操一区二区三区| 国产精品一区二区欧美黑人喷潮水| 婷婷成人av| 91精品天堂| 欧美激情一级片一区二区| 丰满人妻一区二区三区53视频| 中文字幕在线一区免费| 五月天婷婷丁香| 亚洲а∨天堂久久精品9966| 欧洲黄色一区| 国产精品手机视频| 亚洲麻豆av| 亚洲综合av一区| 污污的网站在线看| 国产欧美在线视频| 欧美va久久久噜噜噜久久| 在线观看日本一区二区| 国产精品你懂的在线欣赏| 午夜视频网站在线观看| 色多多国产成人永久免费网站| 精品三区视频| 国产精品第10页| 国产精品99久久久久久动医院| 一级黄色片国产| 一区二区三区 在线观看视频| 亚洲精品久久久狠狠狠爱| 97视频国产在线| 一区二区三区日本久久久| 国产精彩免费视频| 国产精品二区一区二区aⅴ污介绍| 国产精品久久综合青草亚洲AV| 精品国产一区二区三区久久狼5月| 日韩精品一级| 国产美女网站在线观看| 久久一日本道色综合| 国产乡下妇女三片| 欧美另类高清videos| 欧美高清视频看片在线观看| 成人免费毛片播放| 亚洲日韩欧美一区二区在线| 欧美自拍偷拍一区二区| 国产成人一区二区在线| 色999国产精品| 涩视频在线观看| 欧洲一区二区av| www.欧美日本韩国| 久久精品日产第一区二区三区乱码| 久久久久久一区二区| 亚洲精品卡一卡二| 亚洲风情亚aⅴ在线发布| 国产经典一区| 久久国产精品网| 国产精品亲子乱子伦xxxx裸| 亚洲精品视频91| 国产免费久久av| av不卡在线| 日韩精品一区二区亚洲av性色| 亚洲电影免费观看| 免费成人毛片| 一女被多男玩喷潮视频| 亚洲天天做日日做天天谢日日欢 | 国产精品羞羞答答在线| 91精品国产色综合久久不卡98口 | 国产亚洲一区二区三区不卡|