精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

神級(jí)項(xiàng)目訓(xùn)練GPT-2僅需5分鐘,Andrej Karpathy都點(diǎn)贊

人工智能 新聞
AI 領(lǐng)域大牛 Karpathy 一個(gè)僅用 1000 行代碼即可在 CPU/fp32 上實(shí)現(xiàn) GPT-2 訓(xùn)練的項(xiàng)目「llm.c」曾經(jīng)引發(fā)機(jī)器學(xué)習(xí)社區(qū)的熱烈討論。

還記得 Andrej Karpathy 純 C 語(yǔ)言復(fù)現(xiàn) GPT-2 大模型的項(xiàng)目嗎?

今年 4 月,AI 領(lǐng)域大牛 Karpathy 一個(gè)僅用 1000 行代碼即可在 CPU/fp32 上實(shí)現(xiàn) GPT-2 訓(xùn)練的項(xiàng)目「llm.c」曾經(jīng)引發(fā)機(jī)器學(xué)習(xí)社區(qū)的熱烈討論。

llm.c 旨在大幅簡(jiǎn)化大模型的訓(xùn)練,ta 使用純 C 語(yǔ)言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不過(guò)即使是這樣的優(yōu)化,復(fù)現(xiàn) GPT-2 級(jí)別的模型也需要在 8 塊 H100 上花費(fèi) 45 分鐘進(jìn)行訓(xùn)練。

沒(méi)想到幾個(gè)月過(guò)去,業(yè)界水平居然有了指數(shù)級(jí)的提升,讓 Karpathy 本人都感到驚嘆:

圖片

在 GitHub 上出現(xiàn)了一個(gè)新項(xiàng)目「Modded-NanoGPT」,對(duì)技術(shù)進(jìn)行了大幅度的迭代,現(xiàn)在實(shí)現(xiàn)相同的結(jié)果只需要 5 分鐘。該研究的作者 Keller Jordan 曾在 Hive AI 工作,一直以來(lái)的研究方向都著重于模型訓(xùn)練的優(yōu)化。他在本周三表示,利用具有大序列長(zhǎng)度的 FlexAttention,他已把速度的記錄從 7.2 分鐘提升到了 5 分鐘。

圖片

現(xiàn)在有了 FlexAttention 和較大的 seqlen,文檔的拆分更少了,因此語(yǔ)言建模在訓(xùn)練和驗(yàn)證時(shí)都變得更容易。該記錄在 HellaSwag 上的準(zhǔn)確率略有降低,約為 29%,而之前的記錄和 Andrej Karpathy 的原始訓(xùn)練準(zhǔn)確率約為 30%。

讓我們看看他是怎么做的:

圖片

項(xiàng)目鏈接:https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

該項(xiàng)目名為「Modded-NanoGPT」,它是 llm.c 存儲(chǔ)庫(kù)的 PyTorch GPT-2 訓(xùn)練器的改進(jìn)變體:

  • 10B tokens-->1B tokens
  • 8xH100 上花 45 分鐘訓(xùn)練 -->8xH100 上花 5 分鐘訓(xùn)練

Modded-NanoGPT 采用如下技術(shù):

  • 先進(jìn)的架構(gòu):旋轉(zhuǎn)嵌入、QK-Norm 和 ReLU^2;
  • 新優(yōu)化器:Muon;
  • 嵌入中的 Untied Head;
  • 投影和分類(lèi)層初始化為零(muP-like);
  • 架構(gòu) shortcut:值殘差和嵌入 shortcut(部分遵循論文《Value Residual Learning For Alleviating Attention Concentration In Transformers》);
  • 動(dòng)量(Momentum)warmup;
  • Tanh soft logit capping(遵循 Gemma 2);
  • FlexAttention。

要進(jìn)行訓(xùn)練,請(qǐng)運(yùn)行以下三個(gè)命令:

pip install -r requirements.txt
pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0
python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time
./run.sh

在網(wǎng)絡(luò)連接良好的 8xH100 上,訓(xùn)練應(yīng)在 20 分鐘內(nèi)完成。

結(jié)果將是一個(gè)具有 124M 活躍參數(shù)的 transformer,在 10 億 Fineweb tokens 上訓(xùn)練了 1875 steps,實(shí)現(xiàn)了約 3.278 的驗(yàn)證損失。相比之下,默認(rèn)的 llm.c PyTorch 訓(xùn)練器在 100 億 tokens 上訓(xùn)練了 19560 steps 后,驗(yàn)證損失 >3.28。

值得一提的是,要在更少的 GPU 上運(yùn)行 Modded-NanoGPT,只需修改 run.sh 以獲得不同的 --nproc_per_node。如果內(nèi)存不足,只需在 train_gpt2.py 中將 device_batch_size 縮小到 16 或 32。

這里有一個(gè)適用于全新 8xH100 實(shí)例的啟動(dòng)腳本:

sudo apt-get update
sudo apt-get install vim tmux python3-pip python-is-python3 -y
git clone https://github.com/KellerJordan/modded-nanogpt.git
cd modded-nanogpt
tmux

pip install numpy==1.23.5 huggingface-hub tqdm
pip install --upgrade torch &
python data/cached_fineweb10B.py 18

如果 CUDA 或 NCCL 版本與你當(dāng)前的系統(tǒng)設(shè)置不兼容,Docker 可以成為一種有用的替代方案。這種方法標(biāo)準(zhǔn)化了 CUDA、NCCL、CUDNN 和 Python 的版本,減少了依賴(lài)性問(wèn)題并簡(jiǎn)化了設(shè)置。注意:系統(tǒng)上必須已安裝 NVIDIA 驅(qū)動(dòng)程序。

sudo docker build -t modded-nanogpt .
sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18
sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一個(gè)問(wèn)題在于,NanoGPT 訓(xùn)練很快是很好,但它可能無(wú)法擴(kuò)展,只是過(guò)擬合了 val 損失?Keller Jordan 表示,這很難反駁,因?yàn)椤赴匆?guī)模」是一個(gè)無(wú)限類(lèi)別(如果這些方法對(duì) >100T 的模型就不奏效了怎么辦?),因此無(wú)法完全證明。此外,作者也同意快速運(yùn)行中使用的一些方法不太可能擴(kuò)展。但如果讀者關(guān)心 1.5B 模型,他們可能會(huì)被這個(gè)結(jié)果說(shuō)服:

直接將快速運(yùn)行(10/18/24 版本)擴(kuò)展到 1.5B 參數(shù)可以得到一個(gè)具有 GPT-2(1.5B)級(jí) HellaSwag 性能的模型,它要比 Karpathy 的基線便宜 2.5 倍(233 美元對(duì)比 576 美元):

圖片

圖片

Muon optimizer

除了在前人的肩膀上探索,新項(xiàng)目也使用了 Keller Jordan 自研的優(yōu)化方式。比如這個(gè) Muon 優(yōu)化器,據(jù)他所說(shuō)是目前已知最快的優(yōu)化器,適用于包括 CIFAR-10 和 GPT-2 規(guī)模語(yǔ)言建模在內(nèi)的各種訓(xùn)練場(chǎng)景。

Muon 的定義如下:

其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替換 G,其中 U, S, V = G.svd ()。

@torch.compile
def zeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):
    assert len (G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16 () / (G.norm () + eps)
    if G.size (0) > G.size (1):
        X = X.T 
    for _ in range (steps):
        A = X @ X.T
        B = b * A + c * A @ A
        X = a * X + B @ X
    if G.size (0) > G.size (1):
        X = X.T 
    return X.to (G.dtype)

對(duì)于這種訓(xùn)練場(chǎng)景,Muon 具有以下有利特性:

  • 內(nèi)存使用量比 Adam 低
  • 采樣效率提高約 1.5 倍
  • 掛鐘開(kāi)銷(xiāo)小于 2%

總結(jié)

作者表示,生成此優(yōu)化器的許多選擇都是通過(guò)追求 CIFAR-10 快速運(yùn)行而通過(guò)實(shí)驗(yàn)獲得的。其中值得一提的經(jīng)驗(yàn)包括:

  • 在更新中使用 Nesterov 動(dòng)量,在動(dòng)量之后應(yīng)用正交化。
  • 使用特定的五次 Newton-Schulz 迭代作為正交化方法。
  • 使用五次多項(xiàng)式的非收斂系數(shù)以最大化零處的斜率,從而最小化必要的 Newton-Schulz 迭代次數(shù)。事實(shí)證明,方差實(shí)際上并不那么重要,因此我們最終得到一個(gè)五次多項(xiàng)式,它在重復(fù)應(yīng)用后(快速)收斂到 0.68、1.13 的范圍,而不是到 1。
  • 在 bfloat16 中運(yùn)行 Newton-Schulz 迭代(而 Shampoo 實(shí)現(xiàn)通常依賴(lài)于在 fp32 或 fp64 中運(yùn)行的逆 pth 根)。

使用 Newton-Schulz 迭代進(jìn)行正交化的方法可以追溯到 Bernstein & Newhouse (2024),他們建議將其作為計(jì)算 Shampoo 預(yù)處理器的方法,并從理論上探索了沒(méi)有預(yù)處理器累積的 Shampoo。Keller Jordan 特別感謝了論文作者之一 Jeremy Bernstein 的協(xié)助。

如果我們?cè)谶@里使用 SVD 而不是 Newton-Schulz 迭代,那么這個(gè)優(yōu)化器就會(huì)因?yàn)樘鵁o(wú)法使用。Bernstein & Newhouse 還指出,沒(méi)有預(yù)處理器累積的 Shampoo 相當(dāng)于譜范數(shù)中的最陡下降,因此 Shampoo 可以被認(rèn)為是一種平滑譜最陡下降的方法。所提出的優(yōu)化器可以被認(rèn)為是平滑譜最陡下降的第二種方法,與 Shampoo 相比,它具有不同的內(nèi)存和運(yùn)行時(shí)權(quán)衡。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-03-23 09:07:04

2024-05-30 07:02:00

KarpathyGPT-2人工智能

2023-10-06 19:21:49

Initializr應(yīng)用Spring

2019-06-05 09:42:53

Kafka App 消息隊(duì)列

2025-09-08 08:53:00

2024-07-12 12:46:03

2017-12-15 10:37:22

2025-10-17 17:49:11

GPT-5AI模型

2016-07-11 16:04:26

慧點(diǎn)科技

2024-04-11 12:47:37

AI模型

2021-05-21 06:44:43

AI人工智能GPU

2012-06-28 10:26:51

Silverlight

2023-05-29 09:48:36

AI李飛飛

2022-12-19 10:32:23

算法測(cè)量

2021-08-11 09:47:22

項(xiàng)目Django 管理

2017-03-30 16:09:49

互聯(lián)網(wǎng)

2024-06-12 13:27:58

2024-06-11 08:37:00

2021-08-03 17:00:25

Spring Boot代碼Java

2024-08-27 13:54:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91性高湖久久久久久久久_久久99| 亚洲第一福利视频| 亚洲一区三区视频在线观看 | 亚洲国产中文字幕在线视频综合| 成人xxxxx色| 91精品国产综合久久久蜜臀九色| 日韩欧美一区二区三区免费看| 制服视频三区第一页精品| 国产精品久久久久9999爆乳| 亚洲AV第二区国产精品| 久久精品国产99久久6| 欧美激情综合亚洲一二区 | 进去里视频在线观看| 香蕉精品视频在线观看| 精品视频—区二区三区免费| 国产色视频在线播放| free性m.freesex欧美| 亚洲国产精品t66y| 国产日韩三区| 一炮成瘾1v1高h| 亚洲欧美卡通另类91av| 另类美女黄大片| 国产人妻一区二区| 91成人午夜| 欧美日韩激情一区二区三区| 国产主播自拍av| 麻豆影院在线| 国产亚洲精品超碰| 国产伦理久久久| 国产精品久久综合青草亚洲AV| 一本久道久久综合狠狠爱| 久久视频免费在线播放| 天天躁日日躁aaaa视频| 国产精品qvod| 日韩一区二区在线观看视频| 色七七在线观看| 日本蜜桃在线观看视频| 一区二区三区欧美日| 亚洲欧美日韩精品久久久 | 国产主播在线播放| 天天天综合网| 夜夜躁日日躁狠狠久久88av| 香港三日本8a三级少妇三级99| 国产电影一区二区| 欧美色图在线观看| 99草草国产熟女视频在线| 超碰成人av| 亚洲一区二区三区小说| 狠狠干视频网站| 欧美日韩欧美| 国产精品国产馆在线真实露脸| 日韩成人av电影在线| 黄色片免费在线| 久久久一区二区三区捆绑**| 久久国产一区二区| 欧洲视频在线免费观看| av成人免费在线| 国产乱子伦精品| 国产综合在线播放| 丁香婷婷综合五月| 国产精品亚洲综合| 日本人妻丰满熟妇久久久久久| 成人综合在线网站| 国产欧美日本在线| 色视频在线观看免费| 26uuu亚洲婷婷狠狠天堂| 精品在线视频一区二区| 天堂а√在线8种子蜜桃视频| 9i在线看片成人免费| 久久精品中文字幕一区二区三区| 青青久在线视频免费观看| 久久九九影视网| 日韩免费一区二区三区| 五月婷婷在线观看| 亚洲丝袜美腿综合| 国产在线观看欧美| 7777kkk亚洲综合欧美网站| 精品久久中文字幕| 老熟妇仑乱视频一区二区| 国产成人a视频高清在线观看| 欧美日韩精品一区视频| 久久精品国产露脸对白| 亚洲一二av| 日韩av最新在线| 中文字幕第4页| 婷婷激情综合| 久久久久中文字幕2018| 亚洲日本视频在线观看| 老牛影视一区二区三区| 91精品视频网站| 欧美自拍第一页| 国产欧美日韩三级| 好吊色视频988gao在线观看| av最新在线| 欧美日韩亚洲综合一区 | 亚洲图色一区二区三区| 亚洲精品乱码久久久久久按摩观| 国产精品美女高潮无套| 香蕉国产精品| 欧美综合在线第二页| 中文字幕男人天堂| 国产91高潮流白浆在线麻豆| 欧美日韩大片一区二区三区| bt在线麻豆视频| 欧美性少妇18aaaa视频| 亚洲第一天堂久久| 久久中文资源| 日韩小视频在线观看| 日韩精品一区二区av| 蜜桃久久久久久久| 国内精品二区| 二区三区四区高清视频在线观看| 精品久久久中文| 亚洲国产午夜精品| av在线不卡顿| 91av视频导航| 99热这里只有精品在线观看| 久久精品日产第一区二区三区高清版 | 国产精品久久99| 欧美a在线视频| 日韩成人在线观看视频| 中文字幕av日韩| 亚洲视频免费播放| 国产成人在线视频网站| 亚洲高清精品中出| 涩涩视频在线免费看| 欧美成人一区二区三区| 网站永久看片免费| 日韩综合一区二区| 久久精品中文字幕一区二区三区| aaa大片在线观看| 欧美性大战久久久| 国产免费看av| 99在线|亚洲一区二区| 91在线精品视频| 超碰国产在线| 一本色道久久加勒比精品 | 国产香蕉一区二区三区在线视频| 国产精品111| 国产麻豆欧美日韩一区| 亚洲人成影视在线观看| 三级成人黄色影院| 亚洲免费高清视频| 九九热精品视频在线| 不卡一区中文字幕| 妺妺窝人体色777777| 亚洲精品a区| 九九热r在线视频精品| 一级黄色片视频| 国产精品久久99| 污色网站在线观看| 久久国产精品亚洲人一区二区三区| 2020国产精品视频| 色鬼7777久久| 一本色道综合亚洲| 欧美日韩高清丝袜| 久久尤物视频| 日韩精品久久久毛片一区二区| 一区二区乱码| 亚洲欧美国产日韩中文字幕| av一级在线观看| 国产欧美日韩卡一| 五月天中文字幕在线| 天天影视欧美综合在线观看| 91美女片黄在线观看游戏| 91黄色在线| 精品国产乱子伦一区| 日本污视频在线观看| 99国产欧美另类久久久精品| 国产二区视频在线播放| 国产精品免费99久久久| 国产精品久久久久9999| 日韩精品成人av| 欧美一激情一区二区三区| 欧美卡一卡二卡三| 成人av电影免费在线播放| 国产一区二区三区精彩视频| 亚洲天堂日韩在线| 国产精品久久久久久久久久久久 | 亚洲国产国产| 国产精品高清免费在线观看| 国产原创视频在线观看| 欧美成人免费网站| 国产91国语对白在线| 国产精品大尺度| 熟妇高潮一区二区| 日日夜夜精品视频天天综合网| 一区二区国产日产| 白嫩白嫩国产精品| 国产精品88a∨| 曰本三级在线| 亚洲欧美激情视频| a在线观看免费| 一本久久a久久免费精品不卡| 2017亚洲天堂| 波多野结衣视频一区| 91激情视频在线| 欧美久久影院| 日韩中文字幕一区二区| 中文字幕日韩在线| 国产精品久久久久久久久久久久久久| www国产在线观看| 精品视频一区在线视频| 国产精品久久久久久免费| 黑人欧美xxxx| 欧美第一页在线观看| 久久久久久久网| 一级黄色免费毛片| 日本 国产 欧美色综合| 久久久久久免费看| 99久久这里只有精品| 久久天堂国产精品| 日韩中文字幕一区二区高清99| 欧美中文字幕在线| 婷婷在线播放| 中文字幕日韩高清| 天堂影院在线| 欧美精品一区二区三区蜜桃视频| 最新中文字幕免费| 狠狠色狠狠色综合日日五| 色婷婷在线视频观看| 国产精品视频看| 国产呦小j女精品视频| 成人一区二区三区视频在线观看| 亚洲一级片免费| 久久九九免费| 午夜精品久久久久久久无码 | 欧美xxxx做受欧美| 午夜激情在线观看| 国产一区二区av| 视频国产在线观看| 亚洲成色777777女色窝| 精品久久在线观看| 欧美区视频在线观看| 日本三级一区二区三区| 色一区在线观看| 久久久久女人精品毛片九一| 无吗不卡中文字幕| 日操夜操天天操| 亚洲高清在线视频| 精国产品一区二区三区a片| 国产精品久久久久久一区二区三区 | 免费成人黄色网| 国产精品久久久久久久久借妻| 欧美xx视频| 日本精品视频在线播放| 中文在线免费二区三区| 欧美亚洲第一页| 妞干网免费在线视频| 2019中文在线观看| 深夜在线视频| 国产大片精品免费永久看nba| 中老年在线免费视频| 51午夜精品视频| 天堂网在线最新版www中文网| 国语自产在线不卡| 日韩影院在线| 日本在线观看天堂男亚洲| 久久人体大尺度| 国产mv免费观看入口亚洲| 久久电影tv| 国产精品永久免费视频| 成人在线视频区| 成人在线看片| 欧美电影免费网站| 另类视频在线观看+1080p| 西野翔中文久久精品国产| 青青草原成人| 日韩精品免费一区二区三区| 亚洲一区三区| 欧美~级网站不卡| 蜜桃传媒一区二区三区| 免费在线亚洲欧美| 黄色一级一级片| 精品在线免费观看| 国产老头和老头xxxx×| 成人免费视频caoporn| 野花社区视频在线观看| 国产亚洲精品久| 欧美一区二区三区爽爽爽| 亚洲成人免费视频| 日本丰满少妇做爰爽爽| 欧美高清视频在线高清观看mv色露露十八 | 在线观看亚洲专区| 99热这里只有精品3| 亚洲国产一区二区三区在线观看| 狠狠色伊人亚洲综合网站l| 北条麻妃在线一区二区| 国精一区二区三区| 日韩免费不卡av| 国产999精品在线观看| 久久精品成人一区二区三区蜜臀| 久久美女视频| 可以看毛片的网址| 喷水一区二区三区| 毛茸茸free性熟hd| 中文在线一区二区| 精品无码一区二区三区电影桃花| 在线免费亚洲电影| 亚洲AV无码成人片在线观看| 国产一区二区成人| h片在线观看视频免费| 国产日韩换脸av一区在线观看| 成人偷拍自拍| 在线成人av电影| 免费视频一区二区三区在线观看| 午夜激情影院在线观看| 91视频免费看| 久久久久成人精品无码| 欧美午夜精品电影| 天天操天天干天天干| 久久精品中文字幕免费mv| 午夜不卡影院| 99国产超薄丝袜足j在线观看| 日韩欧美高清在线播放| 毛片在线视频播放| 国产成人在线视频网站| a级黄色免费视频| 日韩欧美在线视频| 黄色片一区二区| 久久视频在线免费观看| 日韩天堂在线| 鲁鲁狠狠狠7777一区二区| 欧美日本一区二区高清播放视频| 性欧美极品xxxx欧美一区二区| 北条麻妃国产九九精品视频| 久久久久麻豆v国产| 一本到一区二区三区| 色噜噜在线播放| 九九热在线精品视频| 日韩电影免费观看高清完整版在线观看| 鲁片一区二区三区| 亚洲国产激情| 日本黄色大片在线观看| 日韩美女啊v在线免费观看| www.五月婷婷.com| 一级做a爰片久久毛片美女图片| 在线女人免费视频| 久久免费视频1| 亚洲理伦在线| 黑森林av导航| 亚洲高清视频中文字幕| 亚洲AV午夜精品| 久久久久久久999精品视频| 国产精品久久久久久av公交车| 伊甸园精品99久久久久久| 另类成人小视频在线| 91香蕉视频网| 91麻豆精品国产91| 黄av在线免费观看| 91aaaa| 国内一区二区三区| 老司机午夜免费福利| 香蕉影视欧美成人| 天堂影院在线| 国产精品xxxxx| 日韩精品影视| 中文字幕日韩久久| 亚洲综合免费观看高清完整版在线 | www.黄色在线| 欧美图区在线视频| 婷婷成人激情| 亚洲va欧美va国产综合剧情| 最新国产精品| 中国xxxx性xxxx产国| 欧美日韩美女视频| av资源种子在线观看| 国产欧美日韩精品在线观看| 欧美国产高潮xxxx1819| 日韩精品视频一区二区| 欧美日韩精品国产| 国产理论电影在线观看| 91色琪琪电影亚洲精品久久| 欧美精品入口| 成人在线视频免费播放| 欧美性猛交xxxx免费看久久久| 777电影在线观看| 91在线无精精品一区二区| 在线视频观看日韩| 日本成人免费视频| 欧美一区二区大片| 成人免费图片免费观看| 日韩av电影免费在线观看| 久久99国产精品免费网站| 久久国产精品波多野结衣av| 日韩av网址在线| 成人不卡视频| 免费看黄色a级片| 99精品视频在线免费观看| 天堂av免费在线观看| 乱亲女秽乱长久久久| 亚洲系列另类av| 亚洲第一区第二区第三区| 丁香五六月婷婷久久激情| 一广人看www在线观看免费视频| 99热99热| 男男成人高潮片免费网站| 久久亚洲国产成人精品性色| 在线播放国产一区中文字幕剧情欧美| 国产视频一区二区在线播放|