精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek 用的 GRPO 占用大量內存?有人給出了些破解方法

人工智能
RTX 3080 移動版能訓練哪種大模型?本文為那些 GPU 資源有限時使用 GRPO 訓練的開發者提供了寶貴的指導。

自 DeepSeek-R1 發布以來,群組相對策略優化(GRPO)因其有效性和易于訓練而成為大型語言模型強化學習的熱門話題。R1 論文展示了如何使用 GRPO 從遵循 LLM(DeepSeek-v3)的基本指令轉變為推理模型(DeepSeek-R1)。

GRPO 是一種在線學習算法(online learning algorithm),它通過使用訓練過程中由訓練模型自身生成的數據來進行迭代改進。GRPO 的目標是最大化生成補全(completions)的優勢函數(advantage),同時確保模型保持在參考策略(reference policy)附近。

本文的目的是幫你節省一些時間,讓你根據硬件預算選擇合適的模型大小。在開始微調時,你必須做出的重要決定是選擇模型大小,以及你是執行完全微調還是參數高效微調(PEFT)。

文章作者來自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。

原文鏈接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor

作者表示,他發現 trl 庫中已經有一個易于使用的 GRPO 實現,便立刻開始了訓練,使用的硬件是配備了 16GB 顯存的 Nvidia GeForce RTX 3080 的小型筆記本電腦。正如大家可能遇到的問題,作者發現示例代碼中的參數設置導致了一個巨大的顯存不足(OOM,out of memory )錯誤。

torch.OutOfMemoryError: CUDA out of memory.
Tried to allocate 1.90 GiB. GPU 0 has a total capacity of 15.73 GiB of which 1.28 GiB is free. 
Including non-PyTorch memory, this process has 14.43 GiB memory in use. Of the allocated memory 11.82 GiB is allocated by PyTorch, and 2.41 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

實際使用情況

作者表示,他們進行了一系列實驗,以確定訓練各種大小的模型所需的顯存(VRAM)要求。參數數量從 5 億到 140 億不等,他們比較了權重的完全微調與參數高效微調(使用 LoRA),所有訓練運行都在英偉達 H100 上完成,因此這里的 OOM 意味著 >80GB 的 VRAM。

在表格中,你可以找到 GSM8K 數據集上訓練的前 100 步中的峰值內存使用情況。用于實驗的模型是:

所有實驗均使用 Shadeform 的 GPU 市場完成,因此每次實驗只需要花費幾美元 H100。

實驗結果表明,內存需求隨著模型大小和訓練方式的不同而顯著變化。例如,全參數微調比 PEFT 需要更多的內存。

為什么 GRPO 對內存需求較高

這要從 GRPO 的原理說起,這是它的流程圖。

圖片

GRPO 對內存需求較高的原因在于,其內部涉及多個模型,并且在訓練數據中每個查詢會產生多個輸出。上圖中的策略模型、參考模型和獎勵模型各自都是一個需要進行推理的 LLM。(盡管從技術上講,獎勵模型可能不需要參數化,可以只是一個 Python 函數或正則表達式,但不影響 GRPO 對內存的高需求。)

為什么 8-Bit 優化和梯度檢查點有助于減少內存占用?

通常來講,訓練一個大型語言模型需要在內存中存儲三種主要類型的信息:模型參數、模型學習所需的梯度、優化器的跟蹤數據。

對上述內容我們可以這樣理解:如果模型的參數占用了 X 的空間,那么梯度也會占用大約相同的空間。然后,像 AdamW 這樣的優化器需要更多的空間,因為它們就像一個記錄員,跟蹤最近的更新歷史,以便更好地決定未來的優化。

為了減輕這種內存負擔,通常采用兩種技術:

  • 首先,可以使用像 AdamW 這樣的 8-bit 優化器版本,它們能更高效地存儲跟蹤數據,同時仍保持良好的性能 —— 類似于壓縮照片可以節省空間,同時保留大部分圖像質量;
  • 其次,使用梯度檢查點技術,這就像在訓練過程中拍攝快照,而不是記錄所有內容。雖然這會使訓練速度減慢約 20-30%,但它顯著減少了內存使用。

結合這些技術,即使對 GPU 資源有限的人來說,也能夠訓練更大的模型。

代碼示例

像 trl 這樣的庫已經開始支持 GRPO,使得微調由 transformers 構成的 LLM 變得非常簡單。代碼也非常簡潔,只需將訓練器替換為 GRPOTrainer 并定義一些獎勵即可。GRPO 的最小代碼量大約只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 這樣的小型模型和像 openai/GSM8K 這樣的數據集,可以非常快速地啟動。

trl 項目地址:https://github.com/huggingface/trl?ref=ghost.oxen.ai

import torch
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import GRPOConfig, GRPOTrainer
import re

SYSTEM_PROMPT = """
Respond in the following format:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""

def extract_hash_answer(text: str) -> str | None:
    if "####" not in text:
        return None
    return text.split("####")[1].strip()

def get_gsm8k_questions(split = "train") -> Dataset:
    data = load_dataset('openai/gsm8k', 'main')[split]
    data = data.map(lambda x: {
        'prompt': [
            {'role': 'system', 'content': SYSTEM_PROMPT},
            {'role': 'user', 'content': x['question']}
        ],
        'answer': extract_hash_answer(x['answer'])
    })
    return data

def extract_xml_answer(text: str) -> str:
    answer = text.split("<answer>")[-1]
    answer = answer.split("</answer>")[0]
    return answer.strip()

def format_reward_func(completions, **kwargs) -> list[float]:
    """Reward function that checks if the completion has a specific format."""
    pattern = r"^<reasoning>\n.*?\n</reasoning>\n<answer>\n.*?\n</answer>\n$"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, r) for r in responses]
    return [0.5 if match else 0.0 for match in matches]

def accuracy_reward_func(prompts, completions, answer, **kwargs) -> list[float]:
    """Reward function that extracts the answer from the xml tags and compares it to the correct answer."""
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_xml_answer(r) for r in responses]
    return [2.0 if r == a else 0.0 for r, a in zip(extracted_responses, answer)]

def main():
    dataset = get_gsm8k_questions()

    model_name = "meta-llama/Llama-3.2-1B-Instruct"
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        attn_implementation="flash_attention_2",
        device_map=None
    ).to("cuda")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.pad_token = tokenizer.eos_token

    training_args = GRPOConfig(
        output_dir="output",
        learning_rate=5e-6,
        adam_beta1=0.9,
        adam_beta2=0.99,
        weight_decay=0.1,
        warmup_ratio=0.1,
        lr_scheduler_type='cosine',
        logging_steps=1,
        bf16=True,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        num_generations=4,
        max_prompt_length=256,
        max_completion_length=786,
        num_train_epochs=1,
        save_steps=100,
        save_total_limit=1,
        max_grad_norm=0.1,
        log_on_each_node=False,
    )

    trainer = GRPOTrainer(
        model=model,
        processing_class=tokenizer,
        reward_funcs=[
            format_reward_func,
            accuracy_reward_func
        ],
        args=training_args,
        train_dataset=dataset,
    )
    trainer.train()

if __name__ == "__main__":
    main()

Num Generations 有什么用

Num Generations 是一個超參數,它決定了我們將在訓練數據中對每個查詢采樣多少個補全。然而,這會顯著增加 VRAM 的消耗。

目前有一個開放的 GitHub 問題,可能會幫助解決內存瓶頸問題,可以參考如下鏈接

地址:https://github.com/huggingface/trl/issues/2709?ref=ghost.oxen.ai

對于 num_completinotallow=8,16,64 (DeepSeekMath 論文使用的 64),作者表示,不用再次計算上述所有值,而是使用了 1B 參數模型進行了測試,以顯示內存增長。不過,作者還是建議大家在內存瓶頸得到修復之前使用 num_generatinotallow=4,也能獲得不錯的性能。

影響 VRAM 的一些因素

要對所有影響顯存(VRAM)使用的因素進行全面的超參數驗證,需要進行大量的實驗。簡單起見,這里只指出了需要注意的設置,以及實驗中使用的具體數值。

  • batch_size=1,由于 GRPO 為每個查詢生成多個響應,batch size 會迅速失控。
  • gradient_accumulation_steps=4,優化器是另一個占用大量 VRAM 的地方。此參數決定了我們將存儲的梯度以幫助優化器進行其「爬山」過程。
  • num_completinotallow=4,DeepSeekMath 論文中使用了 64。這完全超出了有些人的計算預算。
  • max_prompt_length=256,如果你想訓練模型擁有更大上下文的推理能力,將不得不增加 VRAM。GSM8K 的提示相對較小,適合此測試。
  • max_completion_length=786,同樣,由于計算注意力的內存有限,推理鏈在這里受到限制。上下文或生成的 token 越多,需要的內存就越大。
  • LoRA target_modules=["q_proj", "k_proj", "o_proj", "up_proj", "down_proj"] 在這方面可以嘗試幾種不同的迭代。target_modules="all-linear" 是一種流行的方式,可以從你的 LoRA 中擠出最多的性能(就準確性而言)。

對 VRAM 使用的粗略估算

如果你正在使用 FP16 精度進行訓練,以下是一些簡單的估算方法,可以幫助你了解內存主要用在了哪些地方:

  • 模型參數:每個參數占用 2 字節。
  • 參考模型參數:每個參數占用 2 字節。
  • 梯度:每個參數占用 2 字節。
  • 優化器狀態:每個參數占用 8 字節。
  • 8 位優化器:每個參數占用 4 字節。
  • PEFT:有助于減少梯度的顯存占用。

最后是關于準確率的。作者完成了一個 10 億參數的 Llama 3.2 模型的完整訓練。在應用 GRPO 之前,該模型在保留測試集上達到了約 19% 的準確率,而在經過一個訓練周期后,模型的準確率飆升至約 40.5%。雖然這離 SOTA 水平還差得很遠,但這展示了 GRPO 的強大潛力。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-03-03 09:32:00

2020-03-23 09:55:35

JuliaPython編程語言

2025-04-03 15:40:41

機器學習大模型DeepSeek

2025-03-19 09:15:00

AI算法模型

2025-03-11 01:00:00

GRPO算法模型

2025-10-08 10:44:16

2025-02-11 09:17:57

2025-03-03 01:00:00

DeepSeekGRPO算法

2021-01-20 15:30:25

模型人工智能深度學習

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-05-26 08:48:00

2022-04-07 10:49:42

量子微軟

2022-08-03 11:47:19

惡意軟件偽裝應用程序

2025-02-17 10:40:20

2021-05-14 09:57:44

大數據IT互聯網

2025-03-19 09:00:00

2025-08-08 09:06:00

2025-03-14 10:22:03

2019-04-29 13:14:02

5G毫米波太赫茲波
點贊
收藏

51CTO技術棧公眾號

欧美一区二区三区视频| 亚洲最大成人网4388xx| 国产在线观看91精品一区| 国产三级国产精品国产国在线观看| 亚洲三级av| 一本久久精品一区二区| 樱空桃在线播放| 天堂中文在线观看视频| 九九久久精品视频| 久久久久久有精品国产| www色com| 激情亚洲另类图片区小说区| 欧美偷拍一区二区| 青青青免费在线| 久久亚洲天堂| 久久这里都是精品| 99精彩视频在线观看免费| 久久久国产免费| 精品成人一区| 久久久999国产| 性欧美一区二区| 国偷自产av一区二区三区| 欧美日韩国产综合视频在线观看| 日本欧美黄色片| 日本大胆在线观看| 综合分类小说区另类春色亚洲小说欧美 | 在线日韩中文| 欧美大尺度激情区在线播放 | 亚洲免费观看高清完整版在线观看| 精品欧美国产| 亚洲男人第一天堂| 国产精品一色哟哟哟| 国产精品狼人色视频一区| 在线观看亚洲天堂| 亚洲三级色网| 欧美激情2020午夜免费观看| 后入内射无码人妻一区| 精品国产一区二区三区久久久蜜臀| 精品国产乱码久久久久久闺蜜| 成人不卡免费视频| 成人一级视频| 欧美日韩亚洲丝袜制服| 欧美日韩在线观看不卡| 欧美日韩精品免费观看视完整| 天天综合天天做天天综合| 国产乱淫av片杨贵妃| 欧美videossex另类| 亚洲蜜臀av乱码久久精品蜜桃| 在线播放 亚洲| 麻豆电影在线播放| 中文字幕欧美一区| 中文字幕制服丝袜在线| 久草资源在线| 亚洲欧美日韩国产手机在线 | 伊人精品影院| 玉米视频成人免费看| 337p亚洲精品色噜噜狠狠p| 2020国产在线视频| 亚洲一二三级电影| 国产深夜男女无套内射| 欧美7777| 欧美日韩午夜在线| 亚洲精品在线网址| 激情视频极品美女日韩| 日韩av在线网| 天堂av网手机版| 99精品网站| 欧美片一区二区三区| 国产乱码久久久久久| 亚洲一区二区毛片| 国产精品激情av在线播放| 国产又粗又猛视频免费| 国产福利一区二区| 国产精品成人一区二区三区 | 精品国产亚洲一区二区三区| 精品少妇一区二区三区免费观看 | 亚洲国产精品一区二区久久恐怖片| www.国产在线播放| 九九热线视频只有这里最精品| 欧美自拍偷拍一区| wwwxxxx在线观看| 欧美wwwsss9999| 永久免费精品影视网站| 男女性高潮免费网站| 亚洲国产电影| 国产精品丝袜视频| 亚洲欧美另类日韩| 国产三级久久久| 国产又粗又猛又爽又黄的网站| 精品人人视频| 欧美精品一二三区| 妖精视频一区二区| 日韩理论在线| 97热精品视频官网| 亚洲天堂777| 99久久精品国产麻豆演员表| 亚洲欧美电影在线观看| 蜜桃视频动漫在线播放| 欧美高清你懂得| jlzzjizz在线播放观看| 欧美3p在线观看| 51精品国产黑色丝袜高跟鞋 | 国产乱妇无码大片在线观看| 精品无人乱码一区二区三区的优势| 99精品老司机免费视频| 精品日韩视频在线观看| 欧美激情第四页| 精品国产精品国产偷麻豆| 欧美丰满少妇xxxxx| 在线观看色网站| 久久影视一区二区| cao在线观看| 清纯唯美激情亚洲| 中国人与牲禽动交精品| 毛片毛片女人毛片毛片| 丰满放荡岳乱妇91ww| 先锋影音网一区| 另类图片综合电影| 欧美精品一区二区三区久久久| 中文国语毛片高清视频| 久久午夜电影| 欧美xxxx黑人又粗又长密月| 男男gaygays亚洲| 欧美欧美欧美欧美首页| 少妇大叫太粗太大爽一区二区| 国产精品videossex久久发布| 国产日韩欧美电影在线观看| 成人高清免费在线播放| 色一情一伦一子一伦一区| 波多野结衣视频播放| 午夜精品国产| 亚洲影院色无极综合| 日本免费在线观看| 欧美三级电影在线观看| 熟女少妇内射日韩亚洲| 久久亚洲欧美| 欧美日韩在线一区二区三区| 黄色漫画在线免费看| 亚洲精品一区二区三区影院| 麻豆疯狂做受xxxx高潮视频| 国产一区欧美日韩| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 日韩电影免费| 欧美日韩视频免费播放| 亚洲中文字幕一区| 亚洲永久免费精品| 久久一区二区三区欧美亚洲| 天堂√8在线中文| 国产视频久久久久久久| 国产伦精品一区二区三区视频我| 97aⅴ精品视频一二三区| 鲁一鲁一鲁一鲁一澡| 欧美尿孔扩张虐视频| 日本不卡免费高清视频| 国产九色在线| 欧美精品视频www在线观看| 四虎影视一区二区| 国产精品一区二区三区乱码| 久久人人爽人人爽人人av| 欧美交a欧美精品喷水| 欧美综合第一页| 黄色在线小视频| 欧美日韩国产一区二区三区地区| 五月婷婷综合激情网| 精品一区二区免费| 免费人成自慰网站| 亚洲第一论坛sis| 国产精品入口免费视| 黄色免费网站在线观看| 精品sm在线观看| 日批视频免费在线观看| 国产精品福利一区| 韩国三级视频在线观看| 久久永久免费| 性欧美.com| 中文字幕一区二区三区四区久久| 性色av一区二区三区| 国产黄色免费在线观看| 日韩欧美在线网站| √资源天堂中文在线| 国产精品久久久久影院色老大 | 久久免费午夜影院| 欧美日韩精品区别| 亚洲欧洲一区二区天堂久久| 色播亚洲婷婷| 成人台湾亚洲精品一区二区 | 国产h视频在线播放| 国产区精品区| av资源站久久亚洲| 激情亚洲影院在线观看| 欧美裸体xxxx极品少妇| 久久精品国产亚洲a∨麻豆| 91精品国产综合久久精品性色| 粉嫩aⅴ一区二区三区| 国产精品国产精品国产专区不蜜| 亚洲一区二区三区黄色| 麻豆久久久久久| 欧美丰满熟妇bbbbbb百度| 98精品视频| 久久99精品久久久久久三级 | 日韩精品在在线一区二区中文| 国产亚洲精aa在线看| 日韩av黄色在线观看| 日韩欧美一起| 色先锋资源久久综合5566| 天天综合在线视频| 欧美成人综合网站| 伊人影院中文字幕| 色久综合一二码| 国产精久久久久久| 亚洲视频一区二区免费在线观看| 精品久久久久久中文字幕人妻最新| 国产精品影视网| 天天做天天干天天操| 日韩中文字幕av电影| 欧美一区二区激情| 午夜欧美精品| 特级毛片在线免费观看| 日韩国产专区| 欧洲在线视频一区| 久久黄色影视| 高清国产在线一区| 精品国产亚洲一区二区三区在线| 国产精品久久久久久久av大片| 忘忧草在线日韩www影院| 欧美精品videossex性护士| 黄色一级大片在线免费看产| 社区色欧美激情 | 成人免费在线电影| 一区二区中文字幕| 国产在线中文字幕| 亚洲久久久久久久久久| 亚洲av成人精品毛片| 亚洲国产精品va在线| 丰满少妇在线观看bd| 日韩欧美国产一区二区三区| 国产精品久久无码一三区| 欧美日高清视频| 一本久道久久综合无码中文| 欧美日韩综合在线免费观看| 中文字幕在线观看第二页| 欧美在线观看禁18| 中文字幕第99页| 欧美三级在线播放| 一区二区三区亚洲视频| 欧美三级电影在线观看| 亚洲综合精品国产一区二区三区 | 国产无色aaa| 精品一区二区在线视频| 天天色天天综合网| 国产精品一区久久久久| 日本女人性视频| 国产成人aaa| 人妖粗暴刺激videos呻吟| a在线播放不卡| av直播在线观看| 日本一区二区三区免费乱视频 | 影视亚洲一区二区三区| 日韩一级特黄毛片| 99精品国产在热久久婷婷| 人妻内射一区二区在线视频| 久久亚洲一区| 在线视频观看91| 成人爱爱电影网址| 国产成人av一区二区三区不卡| 国产欧美在线观看一区| 91 在线视频| 亚洲v中文字幕| 黄色污污视频软件| 欧美一区二区三区四区高清| 少妇高潮一区二区三区69| 国产亚洲视频在线观看| 中文字幕伦理免费在线视频 | 99热99精品| 免费看污片的网站| 亚洲男人的天堂在线aⅴ视频| 日本午夜小视频| 欧美怡红院视频| 丰满人妻一区二区三区四区53 | 国产精品12| 国产精品免费大片| 国产911在线观看| 蜜桃av综合| 中文字幕亚洲日本| 久久精品一区二区| 欧美高清视频一区二区三区| 日韩欧美黄色动漫| 国产黄a三级三级三级| 亚洲欧美另类中文字幕| 中文在线手机av| 国产精品第10页| 国产女人18毛片水真多18精品| 性欧美.com| 国产精品毛片| 久久人人爽人人片| 久久精品网站免费观看| 久久久久成人片免费观看蜜芽| 日本道色综合久久| 成人乱码一区二区三区| 中文字幕亚洲第一| jk漫画禁漫成人入口| 99久久国产免费免费| 欧美一二区在线观看| 免费观看美女裸体网站| 国产剧情av麻豆香蕉精品| 国产又黄又粗视频| 婷婷综合五月天| www.国产黄色| 日韩在线免费av| 亚洲精品一级二级| 国产一级二级三级精品| 欧美搞黄网站| 欧美一级特黄aaa| 日本一区二区高清| 久久精品视频7| 日韩精品视频免费| 国内在线视频| 999国内精品视频在线| 首页国产精品| mm131亚洲精品| 国产亚洲精久久久久久| 六月丁香在线视频| 亚洲福利精品在线| 7777kkk亚洲综合欧美网站| 亚洲精品欧美日韩专区| 97视频精品| 手机av在线网| 亚洲欧美中日韩| 一炮成瘾1v1高h| 搡老女人一区二区三区视频tv | 成人av播放| 女人色偷偷aa久久天堂| 国产女同无遮挡互慰高潮91| 国产精品久久久久久福利一牛影视 | 99中文字幕| 欧美日韩少妇| 久久精品aⅴ无码中文字字幕重口| 亚洲美女屁股眼交| 国产aⅴ一区二区三区| 久久综合伊人77777蜜臀| 亚洲视频资源| 麻豆视频传媒入口| 国产麻豆欧美日韩一区| 国产一区二区播放| 日韩一二三四区| 51漫画成人app入口| 国产亚洲欧美一区二区| 午夜在线一区| av网在线播放| 欧美日韩精品三区| 久草资源在线| 国产成人av一区二区三区| 亚洲日本成人| 亚洲av无码国产精品麻豆天美| 欧洲亚洲国产日韩| 好吊日视频在线观看| 成人永久免费| 国产精品毛片在线| 国产午夜精品久久久久久久久| 欧美日韩一区视频| 91精品久久久久久粉嫩| 国产乱码精品一区二区三区卡| 一本色道久久综合一区 | 依依成人精品视频| 日本黄视频在线观看| 日本伊人精品一区二区三区介绍| 国内精品视频在线观看| 欧美成人乱码一二三四区免费| 亚洲私人影院在线观看| 欧美性猛交 xxxx| 国产精品成人va在线观看| 91综合在线| 国产精品久久久久久亚洲av| 91福利视频在线| h片在线免费观看| 久久99精品久久久水蜜桃| 日韩高清一级片| 激情五月婷婷小说| 亚洲精选一区二区| 久久爱www.| 虎白女粉嫩尤物福利视频| 国产精品国产三级国产专播品爱网 | 久久人妻无码aⅴ毛片a片app| 日韩精品自拍偷拍| 日韩一区二区三区在线免费观看| 公共露出暴露狂另类av| 久久久久国产一区二区三区四区| 国产精品亚洲欧美在线播放| 性欧美激情精品| 99久久激情| 第四色在线视频| 欧美丰满少妇xxxxx高潮对白| 绿色成人影院| 黑人巨大国产9丨视频| 国产亚洲精品资源在线26u| 精品国产伦一区二区三| 国产精品视频99| 一本色道精品久久一区二区三区 | 91久久精品国产91性色| 国产农村妇女毛片精品久久莱园子|