精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

研究完llama.cpp,我發現手機跑大模型竟這么簡單

人工智能 新聞
在一些大模型的推理任務上,瓶頸不是算力 FLOPS。我們知道,除了通用化能力,大模型落地的關鍵在于推理性能的優化,然而如今這個優化程度超出了我們的預料。llama.cpp 至今在 GitHub 上已經收獲了 3.8 萬個 Star,幾乎和 LLaMa 模型本身一樣多。

最近在開源社區,很多人都在探索大模型的優化方法。有一個叫 llama.cpp 的項目用原始 C++ 重寫了 LLaMa 的推理代碼,效果極好,獲得了人們的廣泛關注。

通過一些優化和量化權重,它能讓我們在各種以前無法想象的硬件上本地運行 LLaMa 模型。其中:

  • 在谷歌 Pixel5 手機上,它能以 1 token/s 的速度運行 7B 參數模型。
  • 在 M2 芯片的 Macbook Pro 上,使用 7B 參數模型的速度約為 16 token/s
  • 我們甚至于可以在 4GB RAM 的樹莓派上運行 7B 模型,盡管速度只有 0.1  token/s

圖片

GitHub 鏈接:https://github.com/ggerganov/llama.cpp

我們知道,除了通用化能力,大模型落地的關鍵在于推理性能的優化,然而如今這個優化程度超出了我們的預料。llama.cpp 至今在 GitHub 上已經收獲了 3.8 萬個 Star,幾乎和 LLaMa 模型本身一樣多。以至于到了 6 月份,llama.cpp 的作者 Georgi Gerganov 干脆開始創業,宣布創立一家新公司 ggml.ai,旨在用純 C 語言框架降低大模型運行成本。

很多人看到這里都會發問:這怎么可能?大語言模型不是需要英偉達 H100 之類的 GPU 才能跑的嗎?為了解決這個疑惑,最近有人深入研究了圍繞大模型推理的數學,并試圖進行解答。

讓我們從「為什么 AI 訓練都需要用 GPU?」開始,GPU 對深度學習有兩個主要好處:

  • 它們具有很大的內存帶寬(如 A100:1935 GB/s,RTX 4090:1008 GB/s)
  • 它們具有很大的算力(A100:FP16 有 312 TFLOPS,RTX 4090:FP16 有 82.6 TFLOPS)

內存帶寬之所以重要,是因為它關系到數據從 HBM 內存(即 RAM)移動到片上內存需要花費的時間。在實際使用 GPU 進行數學計算時,我們需要將相關矩陣移至片上內存,該內存相當小(A100 上為 40MB,而 RAM 為 40-80GB)。內存帶寬比計算性能小約 2 個數量級 —— 這稍后會很重要,因為內存帶寬往往是推理的瓶頸。

從計算機體系結構的角度而言,我們需要把不同速度和容量的 memory 分出層級,以追求效率和成本之間的平衡。需要頻繁訪問的數據放在速度最快,但又容量最小的寄存器和 L1 cache 里,訪問量最少的數據放在最慢最大的內存條里。

這在 LLaMa 推理任務上意味著什么?讓我們從一些推理數學計算開始。我們可以使用 Kipply 的文章(https://kipp.ly/transformer-param-count/)對 LLM 的推理性能進行一些粗略的計算。

首先有關模型尺寸:

  • Q、K 和 V 權重矩陣的形狀都是 [ d_model, d_head],每層有 n_heads;注意力輸出矩陣具有相同的形狀,總共 4 * [ d_model, n_heads * d_head]。按照慣例,GPT 風格的網絡具有 d_head * n_heads = d_model。
  • MLP 有兩個權重矩陣,形狀為 [d_model, 4 * d_model] 和 [4 * d_model,d_model]
  • 嵌入矩陣的大小為 [d_vocab, d_model]。

這為我們提供了一個方便的類 GPT 模型參數數量方程:

圖片

在這里,我們將重點討論在本地運行類 ChatGPT 服務的情況,這就是 llama.cpp 所做的事情,讓我們假設 batch size 為 1。為了高效推理,KV 緩存必須存儲在內存中;KV 緩存需要存儲每一層的 KV 值,這相當于存儲:圖片

這里使用 n_bytes 來表示每個參數的字節數;對于 float32 是 4,對于 float16 是 2,以此類推。中間的 2 是因為我們必須為 K 值存儲一組權重,為 V 存儲一組權重。

給定一個 n 層模型,KV 緩存的總內存為:圖片

除了將 KV 緩存存儲在內存中之外,我們還需要將權重本身存儲在內存中;這需要 n_bytes * P 字節。

圖片

這是量化的主要優點之一。通過使用較低的精度,我們可以從根本上減少存儲模型所需的內存量。請注意,在 int4 精度下,所有這些模型都適合英偉達的 A100(也是目前數據中心里常見的 GPU)上的內存,并且除了最大的模型之外,所有這些模型都適合高端消費級 GPU(如 RTX 3090/4090,具有 24GB RAM)。

現在,當談到實際運行推理時,每個 token 大約需要 2P FLOPS,因為我們正在使用總共 P 個參數進行一系列矩陣乘法,與之相乘的矩陣尺寸是 (m, n) 向量 ( n,),成本為 200 mn。

完成所有數學計算后,讓我們計算一下使用 LLaMa 運行推理的要求。sampling 的主要要求是:

  • 除了所有參數之外,還將 KV 緩存保留在內存中。
  • 將 HBM 中的所有權重讀入片上存儲。因為我們是自回歸采樣,所以我們必須對采樣的每個 token 重復此操作。
  • 進行實際的矩陣乘法來計算我們網絡的輸出。

延遲是計算延遲或內存延遲的最大值,因為在所有現代張量編程庫中將參數讀取到片上內存中都是異步發生的。因此,我們寫道:

圖片

其中 B 是 batch size。由于內存帶寬約為 1.935e12,需要的 FLOPS 量約為 3.12e14,所以只要 batch size 小于 161,模型就會受到內存限制。

當 batch size 為 1,即在計算機上僅生成單個預測流時,這是相同的等式,就像在大多數硬件(如英偉達的 GPU)上一樣,當你降低精度時,會出現線性加速:使用 fp16 代替 fp32 時,FLOPS 會翻倍,轉到 int 8,FLOPS 會再增加一倍,用 int4 時再次加倍。

由于 llama.cpp 使用目前深度學習推理中較為激進的 int4 格式,因此 KV 緩存的 RAM 需求減少到 1.33GB,模型參數的 VRAM 減少到 16.25GB。這看起來很不錯

由于內存帶寬幾乎總是遠小于 FLOPS 數,因此內存帶寬是瓶頸所在。

請注意,FLOPS/token 的數量與所需的內存帶寬相同,因為我們必須 1) 將所有參數加載到片上內存中,然后 2) 使用這些參數來計算結果。這些都是同時發生的,因為所有現代張量編程框架都能夠異步處理「加載到內存」位,因此所需的總時間是 max(compute time, memory time)。

在英偉達 A100 上運行 LLaMa

圖片

在 A100 (80GB PCIe) 上,內存帶寬為 1935GB/s。int4 計算量為 1248 TOPS。因此,該模型較嚴重地受到內存的限制。我們預計 65B 模型的速度約為 30 token/s,7B 模型的速度約為 277 token/s。

在 MacBook 上運行 LLaMa

接下來是正片了,蘋果 MacBook 上常見的 M1 芯片,其 GPU 的帶寬為 68.25 GB/s,而 M1 GPU 可執行高達 5.5 TFLOPS 的 fp16 計算。因此,我們預計使用 int4 的 65B 模型采樣的上限為大約 1 token/s,使用 7B 模型的采樣上限為 10 token/s。

由于 M2 Pro 芯片具有 200 GB/s 的帶寬,而 M2 Max 具有 400 GB/s 的帶寬,因此我們應該期待它們在這里可以獲得巨大的性能提升,使用 65B 版模型時 M2 Max 可以達到 6 token/s。這對于筆記本電腦來說已經很不錯了。

在樹莓派 4 上運行 LLaMa

Raspberry Pi 4 具有 13.5 GFLOPS 的計算能力和約 4GB/s 的內存帶寬。鑒于此,如果 7B 模型受內存限制,我們預計會看到大約 2 token/s 的推理速度。然而我們目前看到的是約 0.1 token/s,有理由懷疑這實際上是因為算力受限導致的。這個嘗試是在不知道硬件性能的條件下進行的 —— 我們無法找到有關 Raspberry Pi 低精度運算規格的足夠信息來確定這一點。

總結

內存帶寬幾乎是與 transformer 采樣相關的最大限制因素。任何降低這些模型內存需求的方法都會使它們更容易提供服務 —— 比如量化!這是蒸餾(或者只是長時間訓練較小的模型)非常重要的另一個原因。

OpenAI 科學家 Andrej Karpathy 對于這個觀察進行了進一步解釋。

圖片

他表示:除了并行推理和訓練之外,提示編碼即使在 batch_size = 1 時也是可并行的,因為提示標記可以由 LLM 并行編碼,而不是一一串行解碼。隨著提示越來越長,MacBook 的推理性能就會越落后于 A100。

但另一方面,蘋果的 M2 芯片看起來在大模型的推理任務上展示了強大的實力。「因此,M2 Ultra 是當今體量最小、最漂亮、開箱即用、最簡單、最強大的個人 LLM 節點。」

陳天奇也對這種觀點表示贊同。

圖片

當然這一切并不是免費的午餐。從本質上講,使用低精度會損失一些準確性,并且可能會出現一些奇怪的答案,讓大模型的回應偏離軌道或產生幻覺。不過隨著模型參數越多,質量損失就越低。因此,對于非常大的模型體量,差異或許可以忽略不計。此外,這只是推理成本。訓練就完全是另一回事了。

通過對于各種性能參數的權衡,或許我們很快就會真正擁有更加「智能」的設備。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-20 07:58:51

2023-07-10 13:46:58

PythonLlama.cppLLM

2015-08-24 14:18:08

手機圖形密碼圖形解鎖

2023-12-04 09:11:00

AI模型

2025-04-29 07:47:27

2024-03-07 12:54:00

AI模型

2012-01-04 13:08:30

2021-06-07 08:28:26

人工智能AI機器人

2023-04-26 12:19:09

大模型焦慮精神病學

2018-04-17 09:28:08

陳奕迅評論秘密

2024-08-13 14:20:00

模型數據

2022-11-02 19:08:48

微服務輪詢消費者

2025-07-28 07:45:36

Anthropic大推理模型LRM

2023-02-13 22:41:24

RedisMQRocketMQ

2015-12-02 14:36:03

魅族

2024-08-01 12:48:27

2024-06-11 08:25:00

2023-12-07 12:05:39

2024-07-02 10:24:35

2022-08-16 08:35:45

Black Hat網絡安全
點贊
收藏

51CTO技術棧公眾號

精品国产成人在线| 成人高清视频在线观看| 中文字幕亚洲专区| 男女污污视频网站| gogo久久| 欧美国产亚洲另类动漫| 91在线观看免费高清| 精品无码一区二区三区电影桃花| 老汉色老汉首页av亚洲| 91久久线看在观草草青青| 伊人久久青草| 日韩中文字幕免费观看| 免费在线看成人av| 久久久久久久久亚洲| 蜜桃av免费看| 超碰地址久久| 欧美精品自拍偷拍| 国产97在线 | 亚洲| 永久免费av片在线观看全网站| 国产ts人妖一区二区| 国产精品揄拍一区二区| 久草视频在线观| 欧美日韩国产高清| 中文字幕欧美精品在线| 国产一级伦理片| 国产精品美女久久久久人| 色婷婷综合视频在线观看| 久久久天堂国产精品| 69视频在线观看| 久久噜噜亚洲综合| 国产一区二区久久久| 国产露脸91国语对白| 久久国产精品99国产| 久久久久久久网站| 久久国产一级片| 亚洲成av人电影| 中文字幕亚洲欧美日韩高清| 亚洲观看黄色网| 亚洲91网站| 日韩一区二区精品葵司在线| 国产精品入口免费软件| 中文字幕在线中文字幕在线中三区| 亚洲激情校园春色| 在线丝袜欧美日韩制服| 自拍视频在线播放| 国产精品久久久一本精品| 欧美日韩一区二区视频在线| 天堂网在线中文| jlzzjlzz国产精品久久| 岛国视频一区免费观看| www.热久久| 国产成人综合网站| 97se国产在线视频| www.久久伊人| 成人美女视频在线看| 999视频在线免费观看| 国产免费av电影| 国产美女av一区二区三区| 国产精品视频永久免费播放| 亚洲国产成人精品女人久久| 性欧美精品高清| 91产国在线观看动作片喷水| 国内免费精品视频| 亚洲永久免费| 国产成人涩涩涩视频在线观看| 亚洲免费在线视频观看| 模特精品在线| 国产精品第3页| 一区二区www| 国产一区二区美女| 不卡一卡2卡3卡4卡精品在| 亚洲精品一区二区三区四区| 大白屁股一区二区视频| 国产有色视频色综合| 美女欧美视频在线观看免费 | 日韩av片免费观看| 欧美在线se| 91精品久久久久久久99蜜桃 | 播播国产欧美激情| 妺妺窝人体色www聚色窝仙踪| 国内精品福利| 日韩av手机在线| 国产一级精品毛片| 激情欧美一区二区三区在线观看| 91精品免费看| 亚洲老妇色熟女老太| 99国产欧美另类久久久精品| 欧美日韩精品免费看| 东凛在线观看| 亚洲黄色在线视频| 久久美女福利视频| 91p九色成人| 日韩欧美不卡在线观看视频| 国产在线观看无码免费视频| 成人免费看片39| 欧美黄网免费在线观看| 国产剧情在线视频| 国产做a爰片久久毛片| 好看的日韩精品| 天堂资源在线中文| 午夜激情久久久| 中文av一区二区三区| 2020国产精品极品色在线观看| 亚洲精品在线视频| 成人免费视频国产免费观看| 亚洲一区二区伦理| 亚洲一区二区三区乱码aⅴ| 神马午夜精品95| 亚洲欧洲日韩女同| 日本一极黄色片| 91综合精品国产丝袜长腿久久| 亚洲视频综合网| 免费在线视频观看| 麻豆中文一区二区| 欧美日韩在线一二三| av毛片在线播放| 欧美伊人久久久久久久久影院| 成人免费播放视频| 日韩欧美午夜| 欧洲中文字幕国产精品| 国产成年妇视频| 亚洲国产精品精华液2区45| 成人网站免费观看入口| 欧美成人免费全部网站| 日韩成人av网| 日产精品久久久久| 国产精品1区二区.| 一区二区三区欧美成人| 久久99久久99精品免观看软件| 欧美电视剧在线看免费| 国产又粗又硬又长又爽| 日韩一区精品字幕| 欧美亚洲另类久久综合| 黄色美女视频在线观看| 91精品国产色综合久久ai换脸 | 午夜免费精品视频| 亚洲精华一区二区三区| 久久久亚洲影院| www.久久综合| 一区二区欧美国产| 毛毛毛毛毛毛毛片123| 国产精品久久久久无码av| 国产精品6699| 成年午夜在线| 欧洲精品一区二区三区在线观看| a级在线观看视频| 亚洲精品免费观看| 动漫一区二区在线| 26uuu亚洲电影在线观看| 欧美高清视频在线高清观看mv色露露十八 | 欧美日韩黄网站| 久久精品一本久久99精品| 伊人22222| 一区在线中文字幕| 一级淫片在线观看| 91精品国产乱码久久久久久| 成人激情视频在线播放| 黄色免费网站在线观看| 制服丝袜日韩国产| 国内偷拍精品视频| 丰满岳乱妇一区二区三区| 日韩精品一区二区三区四| 91国内精品| 亚洲 日韩 国产第一| 色窝窝无码一区二区三区成人网站 | 台湾佬中文娱乐久久久| 亚洲系列中文字幕| 一级黄色片在线看| 一区二区久久久久久| 欧类av怡春院| 日韩精品免费专区| 亚洲最新免费视频| 日韩一二三区| 欧美中文字幕在线视频| 国产福利电影在线| 91精品国产综合久久精品| 国产一卡二卡在线| 久久久电影一区二区三区| 亚洲无吗一区二区三区| 亚洲精品成人无限看| 国产精品久久国产三级国电话系列| 波多野结衣中文在线| 亚洲欧美日韩综合| 一级α片免费看刺激高潮视频| 亚洲精品乱码久久久久久黑人| 中文字幕人妻熟女在线| 久久久一二三| 日本一道在线观看| 少妇久久久久| 成人在线国产精品| 美女高潮视频在线看| 中文字幕精品av| 亚洲av无码乱码国产麻豆| 色呦呦国产精品| 日韩女优一区二区| 久久日韩精品一区二区五区| 91精品999| 国产亚洲一级| 日日噜噜夜夜狠狠久久丁香五月| 欧美偷窥清纯综合图区| 成人国产精品色哟哟| 亚洲同志男男gay1069网站| 久久精品国产久精国产思思| 三级av在线播放| 欧美一区二区三区小说| 蜜臀精品一区二区三区| 亚洲精品中文在线影院| 国产精品20p| 成人高清视频在线观看| 亚洲va在线va天堂va偷拍| 国产欧美一区二区色老头| 警花观音坐莲激情销魂小说| 九九在线精品| 国产一区在线观| 日韩视频1区| 川上优av一区二区线观看 | 亚洲精品欧美日韩专区| 电影一区二区三区| 久久久久久中文| 久久77777| 中文字幕亚洲综合久久筱田步美| 污视频在线免费| 日韩欧美电影一二三| 一级全黄裸体免费视频| 欧美影院午夜播放| 无码人妻丰满熟妇区五十路 | 波多野结衣与黑人| 日韩国产欧美| 日韩精品资源| 欧洲专线二区三区| 九九99玖玖| 久久久免费毛片| 国产精品jizz视频| 136福利精品导航| 成人91免费视频| 日韩三级av高清片| 91久久精品美女高潮| 成人交换视频| 国产精品免费视频久久久| 午夜激情成人网| 国产精品99久久久久久久久| 中文字幕成在线观看| 久久久久成人网| 2021天堂中文幕一二区在线观| 欧美理论电影在线观看| 超碰porn在线| 欧美第一页在线| 免费毛片在线看片免费丝瓜视频 | 久久亚洲精品无码va白人极品| 中文字幕亚洲精品乱码| 国产大尺度在线观看| 久久精品一区二区不卡| 日本一级淫片演员| 影视一区二区| www.国产在线播放| aa级大片欧美三级| 啊啊啊一区二区| 天堂资源在线中文精品| 波多野结衣作品集| 蜜桃一区二区三区在线| 五月花丁香婷婷| 国产精品亚洲第一区在线暖暖韩国 | 韩国精品主播一区二区在线观看| 国产精品黄色av| 91麻豆精品一二三区在线| 91久久在线视频| 凹凸成人在线| 久久久精品动漫| 欧美最新另类人妖| 色中文字幕在线观看| 黄色成人在线网址| 精品国产免费av| 久久精品72免费观看| 日本wwww色| 91丝袜美腿高跟国产极品老师 | 欧美日韩国产丝袜另类| 亚洲欧美偷拍一区| 欧美日韩久久久一区| 国产a级免费视频| 亚洲精品久久视频| www.亚洲免费| 欧美黄色性视频| 三级成人在线| 不卡视频一区二区三区| 国产乱码精品一区二区亚洲| 一区中文字幕在线观看| 亚洲黄页一区| 一区二区三区 欧美| 国产精品影视网| 老司机福利av| 一区二区三区中文字幕电影 | 欧美久久一区二区| 人妻无码中文字幕| 日韩中文字幕网址| 麻豆免费版在线观看| 成人性教育视频在线观看| 亚洲警察之高压线| 免费国产成人看片在线| 久久av最新网址| 91大神免费观看| 国产性做久久久久久| 免费一级片在线观看| 在线免费观看成人短视频| www.久久色| 精品国内亚洲在观看18黄| 欲香欲色天天天综合和网| 91天堂在线视频| 国产中文字幕一区二区三区| 欧美交换配乱吟粗大25p| 日韩精品1区2区3区| 中文字幕在线播放一区| 亚洲欧美日韩一区二区| 国产91国语对白在线| 精品少妇一区二区三区在线视频| 波多野结衣在线网站| 91精品国产亚洲| 国产精久久一区二区| 天天综合色天天综合色hd| 99精品欧美| 蜜桃色一区二区三区| 亚洲欧洲一区二区三区| 国产乡下妇女三片| 亚洲精品日韩久久久| √天堂8资源中文在线| 91在线视频免费| 亚欧美无遮挡hd高清在线视频| 国产激情在线观看视频| 99re6这里只有精品视频在线观看| 亚洲色图综合区| 在线播放中文一区| 一区二区高清不卡| 国产精品久久久av| 国产欧美久久一区二区三区| 97成人在线免费视频| 成人小视频免费观看| 成年人av电影| 91精品国产综合久久久蜜臀粉嫩 | 亚洲精品久久久久久动漫器材一区 | 人妻av无码一区二区三区| 亚洲国产婷婷综合在线精品| 99热这里只有精品在线观看| 色婷婷av一区二区三区久久| 日韩三区免费| 色99中文字幕| 日本欧美大码aⅴ在线播放| av中文字幕免费观看| 色先锋aa成人| 成a人v在线播放| 国产欧美日韩中文| 99国产精品一区二区| 91高清国产视频| 国产精品福利一区二区| 91女人18毛片水多国产| 日韩有码在线播放| 国产视频一区二区在线播放| 最新不卡av| 国产成人免费在线视频| 久久无码精品丰满人妻| 亚洲电影中文字幕| 色网在线免费观看| 欧美一区二区三区精美影视| 秋霞电影一区二区| 中文字幕美女视频| 91精品国产一区二区人妖| 日本一级理论片在线大全| 国产伦精品一区二区三区照片91 | 668精品在线视频| 亚洲精品亚洲人成在线| 凹凸日日摸日日碰夜夜爽1| 国产精品无遮挡| av 一区二区三区| 91精品国产高清| 精品香蕉视频| 免费不卡av网站| 亚洲成国产人片在线观看| 日韩一二三四| 国产又爽又黄的激情精品视频 | 国产美女裸体无遮挡免费视频| 欧美黑人狂野猛交老妇| 色天下一区二区三区| 搡女人真爽免费午夜网站| 亚洲欧美成aⅴ人在线观看| 国产 日韩 欧美 综合| 日本欧美精品在线| 天天做天天爱天天综合网2021| 欧美一级片在线免费观看| 欧美性猛交xxxx偷拍洗澡| 欧美69xxx| 好看的日韩精品| 狠狠网亚洲精品| 日本va欧美va国产激情| 中文字幕国产精品| 国产乱人伦精品一区| 国产成人精品无码播放| 亚洲精品乱码久久久久久| 青青青手机在线视频观看| 91久久久久久久久久久久久| 亚洲一区日韩| 久久久久久久久久久久久久免费看 | 亚洲最大成人在线|