精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一念 LLM 大語言模型推理加速

作者：袁鐿 2024-09-09 08:31:15

本文介紹了一念 LLM 大語言模型推理加速。一念 LLM 框架的名字是取自一念三千，現(xiàn)在的大模型轉(zhuǎn)瞬之間就會生成各種不同的結(jié)果，而一念在佛教里面就是一剎那的意思。一念三千也代表我們的目標是希望大模型在一瞬之間生成世間萬象。

一、大語言模型概要介紹

首先來看一下大語言模型的結(jié)構(gòu)。在 Transformer 結(jié)構(gòu)下的大語言模型推理的過程中，一個 token 或者一個字的生成的過程大致上可以分成兩步：

Step 1: 根據(jù)已有信息，也就是 input 的已知信息，估計下一個 token 的概率分布。
Step 2: 根據(jù)采樣的策略，從概率分布里面挑出最有可能的下一個 token。

這個過程有可能是以概率最大的，偏 greedy 的方式來做，要考慮到后期生成的 token 的概率，從總體上去做采樣。這是跟傳統(tǒng)深度學習推理不太一樣的地方。這兩步是一個循環(huán)的過程，當生成了下一個 token 之后，這個 token 會進到下一步 Step 1 里面去再生成再下一個 token，這就是推理的基本邏輯。

這里引出一個經(jīng)常提到的概念，KVCache。剛才提到的在 step 1 的時候，是根據(jù)已有信息，這里的已有信息包含兩個意思，一個是原始的輸入，另一個是之后生成的 token。如果我們把一個生成的過程拆開，前面部分是最原始的輸入，生成第一個 token A。第二步從概率分布的邏輯上來說其實是要把前面的部分再加上 A 去估計下一個 token，依此循環(huán)。這會導致一個問題，計算量是在不停增長的，而且會與前面已生成的部分和 input 部分成正比，可以想象到這樣的邏輯一定會越跑越慢。

在 Transformer 結(jié)構(gòu)里面，存在一個計算的特性，當前 token 的結(jié)果只與前面的 token 有關(guān)，可以把前面 token 的計算結(jié)果進行緩存，形成兩個階段：

Prefill 階段：輸入后走一遍全部的過程，這是全量的走模型的過程，走完之后，會產(chǎn)生一些中間結(jié)果。這些中間結(jié)果被緩存起來，放入到圖中標紅的下一步的過程中，KVCache 在進入 attention 之前，跟現(xiàn)有的新生成的 token 的結(jié)果做一個 concat，然后再做計算。之后又是一個 token 生成的過程。
Decoding 階段：通過 KVCache 的優(yōu)化，decoding 階段的計算量和前面的 token 數(shù)就變得無關(guān)了。這里其實是一個近似的無關(guān)。因為在其他主要的部分都是無關(guān)的，但是在 attention 計算的地方，是被恢復成了一個全長的 token，然后進行 attention。

這就是 KVcache 的存在的意義，讓 decoding 階段的計算盡量復用以前已經(jīng)計算過的結(jié)果，這樣對前部分的數(shù)量就沒有依賴，從而提高整體的推理速度。

這里存在的問題是，首先，開始輸入很多 input，之后每次只會輸入一個，比如這里輸進去的是一本書，可能是成百上千萬的輸入，之后計算的數(shù)全部都是1。所以在推理的時候就會出現(xiàn)這樣的一種現(xiàn)象，比如一張 A100 的卡，它能夠并行推理的 token 數(shù)跟 GPU 的 TFLOPS 的關(guān)系是，當 token 數(shù)增長的時候，GPU 會被更充分地利用起來，到達一個閾值之后，可能跟算值本身的時限有關(guān)，基本上到達了該 GPU 卡能夠提供的最大 TFLOPS。

我們發(fā)現(xiàn)在 prefill 的運轉(zhuǎn)區(qū)間，可以把 GPU 壓滿。但是因為后續(xù) decoding 的并行每一次只預測了一個 token 數(shù)，也就是并行度非常小，在生成過程中，GPU 都處于一種不飽和的工作狀態(tài)。對于不飽和，最簡單的處理方式就是做 batch，把 batch 加大。這里面存在一個問題，如何才能把 batch size 加大？由于 KVCache 的存在，而且由于在大模型的情況下，KV cache 占用顯存非常厲害，batch size 會受到顯存的限制。

我們需要看一看，顯存到底是被怎么消耗掉的。一個正常的執(zhí)行過程，包括了 prefill 和 decoding 兩個階段。一個模型加載之后會占用一部分顯存，之后第一把執(zhí)行 input token 的時候，顯存會有個快速的消耗，之后隨著 token 的逐步生成，顯存的消耗在慢慢變大，這和常規(guī)的深度學習的推理非常不一樣。因為它有 prefill 過程和后面的生成的過程。這個消耗過程其一是跟長度有關(guān)系，其二是跟我們加的輸入的長度也有關(guān)系，當我們 batch size 擴大的時候，這里的顯存就會成倍地上漲。

從顯存角度來看待的話，可以列個很簡單的公式，首先是模型占用了多少參數(shù)，然后在模型的推理過程中有很多的中間變量其實也會占用一部分參數(shù)，另外有多少 token 的 KVCache 緩存也會占一部分，最終是要小于顯存的大小。

正常而言，比如一個 llama-13B 的模型，只要這種模型一上去，顯存基本就固定了。如果我們想優(yōu)化的是把 batch size 做大，就可以通過優(yōu)化 β，將顯存使用變小。這里主要涉及到 KVCache 的量化技術(shù)。

占用了 KV cache 的這些 token 的數(shù)量跟什么相關(guān)呢？可以這樣去列一個公式，實際上是 batch 內(nèi)平均的 token 的數(shù)量。比如現(xiàn)在已經(jīng)輸入了多少 token，以及生成了多少 token 的一個總數(shù)乘以 batch size。這里還存在一個 γ 系數(shù)，其實就是 batch 之中不同的請求之間的 token 可復用的 KVCache。

一念 LLM 框架的名字是取自一念三千，現(xiàn)在的大模型轉(zhuǎn)瞬之間就會生成各種不同的結(jié)果，而一念在佛教里面就是一剎那的意思。一念三千也代表我們的目標是希望大模型在一瞬之間生成世間萬象。

因此這里會對 latency 和 throughput 兩個方向重點優(yōu)化。

二、一念 LLM 基本框架

一念 LLM 的基本框架如上圖所示。從上往下分別為：

最上層就是咱們經(jīng)常實現(xiàn)的如 Llama、Baichuan、QWen 等模型，與常規(guī)的深度學習模型的推理方案不一樣，我們采用的是手寫模型。我們拋棄了計算圖，計算圖以前都是用角度算值，拼成模型，這最大的好處是有很多的靈活性，便于算法人員去實現(xiàn)。而這樣會帶來另外一個問題，即深度優(yōu)化困難，以至于最后大家會走向一個方向，去做融合算子，然后把融合算子放到圖里面去，如果符合圖的 pattern，用融合算子去替換。

對于 Transformer 結(jié)構(gòu)，因為結(jié)構(gòu)非常簡單，并且現(xiàn)在結(jié)構(gòu)基本已開始收斂，大家不再卷模型結(jié)構(gòu)，更多的是卷模型效果。也就是說，這一塊我們需要實現(xiàn)的模型的類型是比較少的，這就讓手寫模型和手寫算子變得有利可圖。

英偉達、Facebook 等各個大廠為大語言模型場景寫的算子都非常的大。甚至像 attention 這種，按現(xiàn)在基本就是一個標準的，用 Flash Attention 做一個大算子來做。

我們?yōu)槭裁匆獜氐讈G掉計算圖呢？因為我們還希望去優(yōu)化整個模型推理過程中的顯存，只要已經(jīng)規(guī)定好了模型，就可以盯著這個模型，仔仔細細地把里面顯存的使用全部去調(diào)好，使得整個顯存使用最小化。省出來的顯存都可以拿去做其他事，去做 KVCache 相關(guān)的事。

另外一個是高效調(diào)度以提高吞吐，后文中還會詳細介紹。

下面就是算子擇優(yōu)，我們的底層算子，很多時候會是開源的封裝。因為其實當模型結(jié)構(gòu)相對固定之后，硬件廠商會專門針對這些大的算子進行優(yōu)化，提高性能，最終目的是賣掉他們的卡?，F(xiàn)在各大廠商甚至為了不同的 tensor 的大小，去寫不同的算子，從而獲得收益的。

多硬件的支持方面，現(xiàn)在業(yè)界的主流框架，基本上都是英偉達，當然也有支持英特爾的 CPU。然而像支持 GPU 和華為昇騰等國產(chǎn)卡，還并不完善。從國內(nèi)廠商的角度來看都會面臨一個問題就是高性能的 GPU 卡進不來。從業(yè)務(wù)安全的角度，我們也必須要去支持不同的硬件。

但是為什么不是按不同廠商使用不同框架，比如英偉達用一個框架，華為用華為的框架，兩邊的都能用到一個好的收益？實際上，當你在做這一層優(yōu)化的時候，你會發(fā)現(xiàn)面臨不同的框架，需要重復做。另外各個框架本身對后期業(yè)務(wù)邏輯的適配也會不同。

我們通過上面統(tǒng)一框架，下面支持多種硬件，這樣就相當于做到調(diào)度這層一次優(yōu)化在所有硬件上都可以用，這樣更有利于整個平臺的運營。

三、一念 LLM 框架調(diào)度

第一個問題是 ContinuousBatching 和 PageAttention，從最原始的公式來看它其實就是在有效地優(yōu)化 batch size。

正常情況下，我們會把不同的請求打成一個 batch 去做 GPU 的推理，這個過程往往是一個 batch 一個 batch 地進去，要等到這個 batch 里面的請求全部處理完才退出。從 GPU 的任務(wù)調(diào)度上來說這是最簡單的使用方式，但這種使用方式最大的問題在于它的有效 batch 會越來越低，因為每個請求的輸入長度不一樣，輸出長度不一樣。比如有可能第一個請求是一個摘要的任務(wù)，會丟入一個 1,000 字的文章讓大模型用一句話總結(jié)出來；第二個請求可能是一個擴寫的任務(wù)，給了一小段話，讓模型把它擴寫成一篇長文。也就說輸入輸出的不匹配，會導致有些請求很快就結(jié)束了，有些請求還要跑很久。這樣的話，要等到所有的請求都完成，這個 batch 才會退出，這會導致有效的 batch 到后面越來越小。另外一個問題是，后面很多請求結(jié)束了，GPU 算力就會閑置。

因此很容易想到的是能否當一個請求處理完成后，就把另外新的請求輸入進去，這就是 ContinuousBatching 的基本思想。這個想法其實早在 22 年就已經(jīng)被微軟提出來，但是這么好的一個想法一直都沒爆發(fā)，是因為存在一個問題，就是它的 KVCache 的顯存的操作成本比較高，比較麻煩。去年由伯克利提出的 PageAttention解決了這一問題，于是整個 ContinuousBatching+PageAttention 的機制就迎來了一個爆發(fā)期，現(xiàn)在成為了大語言模型推理框架的一個標配功能。

簡單講因為整塊操作成本高，所以將它切小，它采用了常規(guī)操作系統(tǒng)里面的內(nèi)存分頁的機制來管理顯存，把 KVCache 切成不同的塊，用指針去引用的方式來進行計算。這樣就顯著降低了顯存操作的粒度。這樣 ContinuousBatching 的整體操作效率就得到了提升。

這里面還遺留了一個問題，就是 input 在請求與請求之間的共享問題，這在以前的深度學習的推理里面很少關(guān)注到，但是在推薦里面從很早的時候就已經(jīng)有類似的工作。比如一個用戶多個 item 的 rank 操作，因為用戶都是一樣的，所以這一部分的推理只需要做一次。然后不同的 item 的推理多推多次，再融合到一起，再去做后面的推理工作。

請求是有共性的，這些共性的請求其實可以只算一次，然后把計算結(jié)果緩存，就可以把 KVCache 存起來，等到下一個請求，只需要處理后面的。Batch 之間也可以繼續(xù)復用，這樣整個后期請求的推理響應(yīng)就可以一下提上去。

KVCache 機制看起來非常美好，但也是有成本的，因為 KVCache 會占用顯存，而且一旦緩存大，就會面臨 cache 換入換出和命中問題。比如放兩個前序在顯存里面，就得占兩份顯存。最終在具體的執(zhí)行節(jié)點上面，命中率就決定了這個機制最終的收益。所以 prefix catching 更多就相當于上面公式里面的 γ。

我們在服務(wù)節(jié)點的前置加了一個叫 prefix-token 的路由器。在這里，路由需要平衡兩件事情，命中率以及傳統(tǒng)路由的問題，包括負載平衡、容災等問題。例如，如果前序都是一樣的，就直接打到一個節(jié)點上去，它一定會被命中。但是實際上還是會面臨負載平衡和容災的事情怎么解決的問題。所以我們構(gòu)建了一個路由表，例如經(jīng)?？吹降囊恍┙巧缪莸姆?wù)，比如正在跟宋江聊，首先需要告訴模型你現(xiàn)在正在扮演的是宋江，宋江是一個什么樣的人、之前的生平、有什么樣的能力、他的性格等一些重要的事件，就像用戶簡歷一樣。然后再說你跟宋江之前聊過什么，下面請生成你準備作為宋江回復給用戶的信息。這個過程里面有大量的信息其實是跟用戶 profile 一樣。還有另外一種，比如作為愛因斯坦或者牛頓這樣的角色，對不同的角色，在進到模型之前，我們就會把前面的這一段做一個 prefix-token。對相同的一段給他指定一個具體的路由表，在有限的機器里面去選中一個機器集合。

另外剛才也提到一個問題，我們需要解決不能有太多份的 cache，cache 份數(shù)多了，顯存里就全是 cache，沒有顯存去計算當前要執(zhí)行的請求了。我們通過另一個維度的管理，對于單一的節(jié)點，相當于是一個 server-set 其實是有限的。從這張圖可以感覺到，最后每個節(jié)點只命中了兩個 set，從而達到對于單個節(jié)點而言 cache 份數(shù)是相對可控的，同時又能夠在 set 的維度完成負載平衡和容災。

最后再講一下，CPU 跟 GPU 的混合推理，其實就是優(yōu)化 M。

前面提到把模型從 FP16 變成 INT8 或者 INT4，這種是量化操作，效果是有損的。從框架層面需要支持，待業(yè)務(wù)評估是否使用。這里講的是無損的一些方式，計算密度的問題。我們一般講的大語言模型是計算強密集的，通常指的是 Transformer 結(jié)構(gòu)部分。實際上它還有一個 token embedding 部分，這部分就是查表，類似推薦里面的 sparse 操作。往往這部分又是放在 GPU 上做的，這個表一旦大了就會占顯存。而且可以看到一般在業(yè)務(wù)應(yīng)用的時候，通常都會擴 token，擴詞表。因為原始的模型里面的那些詞并不能完全覆蓋到我們的業(yè)務(wù)里。業(yè)務(wù)里面有可能會有一些特殊場景的詞。開源模型如標準的 Llama-13B 在 v2 的時候是 3.2 萬的詞表。詞表會隨業(yè)務(wù)擴展，Llama-13B 原生的詞表可能只占整個參數(shù)的百分之一。但是當把它擴到三十萬的詞表時，它對整個模型參數(shù)量的占比就會到 11.8% 的顯存。而它又是個 sparse 操作，很直接的一個想法，就是把它丟到 CPU 上去改。我們自己在測試 30 萬詞表的 Llama-13B 時，能夠有 10% 的性能提升。但這 10% 也不一定是能拿到的收益，跟詞表大小有直接相關(guān)。因為這會涉及到 CPU 跟 GPU 的聯(lián)合推理的問題，意味著 CPU 執(zhí)行完的結(jié)果要拷貝到 GPU 上，多了一個成本。如果節(jié)省的顯存不足以去 cover 成本，收益就可能是負的。所以需要根據(jù)實際業(yè)務(wù)所用的模型去調(diào)整是否選用這個機制。

四、一念 LLM 在 GR 模型的應(yīng)用

目前大家都在考慮大語言模型的 Transformer，生成式的結(jié)構(gòu)，能否用在推薦系統(tǒng)中。推薦系統(tǒng)的推理因為量非常大，耗時要求非常高，推理成本比常規(guī)的 AI 推理要高很多。

當我們把常規(guī)的模型結(jié)構(gòu)，變成一個大語言模型的結(jié)構(gòu)，采用一個長序列輸入，計算量可能是成千上萬倍，成本也可能隨之增加。

生成式推薦其實是基于歷史序列去預測候選 item 的 action。這里單個用戶會有大量的 item 要預測，因為 rank 往往是千級別的。對于同一用戶的歷史序列，其實是一樣的，這是很好的符合 prefix catching 的場景?？梢詫@個用戶所有的 item 預測請求，做一次 prefix-cache，之后只做 item 部分的推理。這可以實現(xiàn)原來整個計算量是 prefix-token 加上一個待預測的 item，需要推理的 token 量乘以 item 的數(shù)量。相當于每一個 token 的計算量是乘的關(guān)系，所以會導致我們的計算量成千上萬倍的增長，因為 token 是成千上萬的。通過這個功能，就可以實現(xiàn) item 變成了 item 的數(shù)量加上 token 數(shù)量，也就是把乘變成了加。這樣最后的計算量就是跟 item 數(shù)量線性相關(guān)，就跟現(xiàn)在正常推薦的推理相似。

這里只是解決了一個計算量的問題，還有另一個問題是 latency 的問題。如果是以萬級的 token 輸入，想要最后控制在 10 毫秒以下也是非常困難的，哪怕業(yè)務(wù)能夠接受更長時間的 latency，也不是將閾值從 10 放松到 50 毫秒這樣的一個狀態(tài)，而是要放松到秒級。這里對于 item 的預測是可以分開的。在不知道 item 的情況下，就已經(jīng)知道了用戶的序列，可以提前計算。比如在用戶請求剛剛過來時，就可以把序列發(fā)給用戶了，然后等到把 item 做了召回初排之后，再去執(zhí)行這一部分。這部分就只有一個 item 的 token 耗時，這也是我們傳統(tǒng)意義上講的 rank 的請求耗時。這個耗時就可以做到只跟 token 的最后 item 有關(guān)而跟前面的 prefix-token 的數(shù)量無關(guān)。這樣的話就可以把整個系統(tǒng)跟現(xiàn)有推薦的推理系統(tǒng)基本對齊。

無、未來規(guī)劃

未來的規(guī)劃就是圍繞整個架構(gòu)的幾層：

1. 對模型的支持

常用的大語言模型；業(yè)務(wù)的 GR 的推薦模型的支持。

2. 調(diào)度層面的優(yōu)化

計算/顯存的流水線，包括現(xiàn)在熱門的投機解碼等業(yè)界先進技術(shù)，會持續(xù)跟進。

3. 硬件的支持

不只是在硬件上跑起來，更重要的是在硬件上定制化算子的開發(fā)。例如華為等國內(nèi)其他公司也在做加速類的硬件。要單獨提一下 CPU，因為現(xiàn)在最新的英特爾芯片，已經(jīng)在 CPU 盒里面加進了矩陣計算的硬件單元。這種情況下，CPU 其實是可以去承擔一定程度的高密度的矩陣計算的，性能會好很多。

六、Q&A

Q1：之前在做 CTR 推理的時候做了很多類似顯存分配、動態(tài) batch、多流并行、kernel launch 等工作，未來有哪些 CTR 推理的能力和經(jīng)驗是可以借鑒到 LLM 推理上的？CTR 和 LLM 之間的區(qū)別和優(yōu)化側(cè)重點有哪些共性和不同點？

A1：這里沒有提到傳統(tǒng)的深度學習推理里面的那些優(yōu)化，準確來說這些優(yōu)化全部都有效。只是在大語言模型推理場景下面，因為長序列，序列輸入是以 token 方式去做并行這樣一個特殊性，引入了一些特殊的優(yōu)化方法，包括動態(tài) batch，其實很大程度上也會是跟剛才提到的 continuous batching 結(jié)構(gòu)類似，實際上 continuous batching 就是更細化的動態(tài) batch 操作。

多流的并形其實可以用在單個請求單個 batch 前向推理的過程優(yōu)化里面。這部分相當于已經(jīng)有一定的 batch 了，要去生成一個 token，就要經(jīng)過圖的過程。所有以前用的優(yōu)化都可以繼續(xù)使用。

只是可能有一部分，比如手寫算子，圖優(yōu)化，因為沒有圖了，所以也就不需要圖優(yōu)化了。

簡而言之，目前的 GR 模型其實并不是一個連續(xù)生成的模型，其實對 KVCache 連續(xù)生成這一點上的依賴沒那么重。就像在現(xiàn)有體系下是計算圖去實現(xiàn)。走一次前項，再走一次前項，只不過多了一個 KVCache 的輸入。然后圖存在一些變化的部分，用傳統(tǒng)計算圖的一些優(yōu)化方式去實現(xiàn)也都是沒問題的。

這個理論可能會涉及到極致優(yōu)化的問題，因為手寫算子極致優(yōu)化這件事情本身就是相當于損失易用性來實現(xiàn)的。這張圖上的應(yīng)用，是跟咱們算法同學配合上線的。在大語言模型的場景下面，如果有一個新模型，就又得去支持它。從工程層面上來說，需要重新把從訓練到推理的這一套，全部的給重新弄一遍，這其實就是取決于模型結(jié)構(gòu)本身的穩(wěn)定性的問題。因為在大語言模型場景，結(jié)構(gòu)已經(jīng)非常穩(wěn)定，跟推薦場景比起來簡單太多了。推薦場景會有很多的 sparse，小算子來回拼來拼去的事情。在大語言模型這種情況下全都沒有了，只剩下大算子。

像 kernel launch 這種類型的優(yōu)化，在現(xiàn)有的大語言模型場景下？全部都可以用?，F(xiàn)在的主流的大語言模型推理框架基本上都不是用圖。除了 tensorRT LLM 算是用圖的，但其實它里面也是很多大算子，只是用圖大致串了一下幾個大算子。

Q2：一念現(xiàn)在用的是連續(xù)的 batch，在大 batch 中間，模型的 forward 部分和解碼采樣是會有一個串形的執(zhí)行流水線，這樣是不是可能會出現(xiàn) GPU 的空隙？

A2：實際上在解碼采樣這件事情上，目前主要的優(yōu)化手段還是把解碼采樣的時間段盡量放短，因為現(xiàn)在主要的方式仍然是 token 依次生成。當前大語言模型，因為顯存的問題，顯存占用太大了，比較難像以前一樣。這個 batch 跟那個 batch 交換著做一個流水線。

現(xiàn)在盡可能將一個 batch 打大，打大之后顯存就已經(jīng)沒了，沒法再切到另一個 batch 的顯存來做下一步的推理，所以現(xiàn)在這一塊基本上是串行?，F(xiàn)在主要的優(yōu)化是想辦法把解碼采樣這一環(huán)節(jié)壓縮，把它壓的更短，不要就那個地方的解碼采樣，現(xiàn)在很多都在最后全部采用 GPU 算子來做，而不是在 python 層面去寫，寫了再用。其實都是為了極致的壓縮，因為它這整個過程現(xiàn)在就是個串行的，比以前的優(yōu)化的空間小很多，不能夠讓流水線讓下一個 batch 的計算能夠進來，還需等前一個解碼采樣算完，希望盡可能的用 GPU 去算解碼采樣。

現(xiàn)在主流的方案基本都是這樣的，因為中間提到的 decoding 是有狀態(tài)的，其中的 KVCache 不可能在這么短的時間內(nèi)（一個采樣的時間）把它換出去，再換另外一個 batch 進來。這樣的操作會得不償失。

Q3：一念有沒有做過跟 TensorRT-llm 的對比，是否有跟 A800 或者 4090 做推理。它的性價比如何？

A3：A800 或者 A100 的有測，其他普通的非線上卡沒有測。跟 tensorrt-llm 的對比的話，在具體場景，有 10%-20% 的收益。這個收益主要源于我們在下面對開源算子進行了封裝，包括 FastTransformer 的算子，vllm 的算子和 TensortRT 的算子。我們集成了開源的大語言模型推理框架，以及為業(yè)務(wù)定制的算子。這里面存在一個問題，因為做了大量的融合算子都用 FP16 在推理，在這種情況下 FP16 有精度損失。大家都知道在業(yè)務(wù)實際應(yīng)用的時候，有些業(yè)務(wù)可能會有非常強的效果一致性的需求，有時候就需要把算子退化到比如 pytorch 的算子來跟訓練做對齊。

對于 TensorLRT-LLM 來說，它其實完全用 FP16 的性能并不是那么好，只有開啟 INT8 和 FP16 的混合量化的機制之后性能才上來。

Q4：如果是對于 GR 生成推理的話是更適合做一個 multi stream 的并發(fā)，還是也像 llm 那樣做一個異步大 batch 之后，再去做一個串行執(zhí)行？

A4：在大語言模型情況下為什么沒有做這件事情，是因為顯存不夠。但是在 GR 的場景，模型大小不是很大，像現(xiàn)在做的大語言模型，13B 的規(guī)模那就是 26G 的顯存沒了。但如果模型可能只有 G 這種級別，剩下的顯存就是足夠大的，就有空間去做多 batch。對于現(xiàn)在大語言模型的場景，很多問題都暴露在了顯存大小這件事情上。

責任編輯：姜華來源： DataFunTalk

LLM 大語言模型 KsanaLLM

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

不卡的av中文字幕| 亚洲乱码一区二区三区| 日韩精品一卡二卡| 欧美日韩爱爱| 91精品国产91久久久久久一区二区 | 亚洲免费一区三区| 欧美性xxxx在线播放| 一区二区三区在线视频111| 亚洲成人第一区| 丝袜美腿亚洲一区| 久精品免费视频| 国产精久久一区二区三区| 国色天香久久精品国产一区| 婷婷激情综合网| 正在播放亚洲| 欧美色18zzzzxxxxx| 国产一区二区三区在线观看免费视频| 久久男人资源视频| 性少妇xx生活| 久久91精品| 精品国产免费视频| 亚洲免费黄色录像| 日韩国产激情| 午夜不卡av在线| 99精品一级欧美片免费播放| 国产小视频免费在线网址| 国产精品99久久久久| 日韩免费视频在线观看| 国产在线成人精品午夜| 88国产精品视频一区二区三区| 亚洲免费av片| 日韩免费高清一区二区| 嫩呦国产一区二区三区av| 欧美亚洲愉拍一区二区| 欧美日韩在线中文| 麻豆蜜桃在线观看| 亚洲成人av电影| 91大学生片黄在线观看| 精品自拍一区| 18欧美亚洲精品| 亚洲国产日韩综合一区| 日本一区二区三区在线观看视频| 风流少妇一区二区| 97人人澡人人爽| 国内精品偷拍视频| 国产精品小仙女| 51成人做爰www免费看网站| 中文字幕在线观看1| 日韩精品三区四区| 国产精品美女久久久免费| 亚洲中文字幕无码爆乳av | 欧美极度另类性三渗透| 极品盗摄国产盗摄合集| 91av精品| 欧美成人三级视频网站| 麻豆亚洲av成人无码久久精品| 天天综合网91| 欧美www在线| 欧美黄色免费在线观看| 黄色工厂这里只有精品| 久久久女人电视剧免费播放下载| 国产一级特黄a高潮片| 在线成人www免费观看视频| 久久免费国产视频| 日产精品久久久| 天堂成人国产精品一区| 国产精品九九久久久久久久| 中文字幕人妻丝袜乱一区三区| 久久一二三区| 国产日韩欧美在线播放| 99精品视频在线播放免费| 丁香六月综合激情| 久久综合九色综合久99| 黄色在线免费观看大全| 亚洲国产成人一区二区三区| 宅男在线精品国产免费观看| 18videosex性欧美麻豆| 动漫精品一区二区| 黄色一级二级三级| 白嫩亚洲一区二区三区| 精品国产一二三区| 色无极影院亚洲| 欧美成免费一区二区视频| 另类少妇人与禽zozz0性伦| 亚洲精品午夜久久久久久久| 久久av最新网址| 国产欧美在线播放| 亚洲免费成人在线| 国产午夜一区二区三区| 中文字幕第50页| 欧美另类老肥妇| 欧美日韩精品一区二区天天拍小说 | 欧美精品一区二区视频| 日本视频在线免费观看| 亚洲伊人伊色伊影伊综合网| 久久久久久久久久久久久久国产| 日韩专区视频网站| 日韩高清a**址| 天天看天天摸天天操| 国产精品婷婷| 91在线免费看网站| 欧美高清电影在线| 亚洲精品午夜久久久| 18岁视频在线观看| 超碰97久久国产精品牛牛| 一区二区三区www| 国产一级免费av| 久久av资源站| 你懂的视频在线一区二区| а√天堂在线官网| 精品视频一区三区九区| 午夜一区二区三区免费| 欧美日本二区| 成人黄色网免费| 免费在线一级视频| 亚洲va欧美va人人爽午夜 | 亚洲高清国产拍精品26u| 日韩国产欧美精品在线 | 国产精品激情电影| 成人欧美一区二区三区在线湿哒哒 | 一道本在线观看视频| 无码小电影在线观看网站免费| 欧美一区二区三区人| 国产人妻大战黑人20p| 亚洲福利国产| 91手机在线观看| 黄网页在线观看| 欧美日韩精品欧美日韩精品 | 亚洲精品国产一区二| 综合久久给合久久狠狠狠97色 | 日韩免费在线视频观看| 激情六月婷婷久久| 一区二区精品在线| 99热播精品免费| 亚洲视频在线视频| 亚洲欧美综合自拍| 2019国产精品| 欧洲av无码放荡人妇网站| 国产精品极品国产中出| 久久久伊人日本| 免费观看成年人视频| 亚洲影视在线播放| 美女伦理水蜜桃4| 欧美日韩三级电影在线| 91精品久久香蕉国产线看观看| 日本亚洲精品| 91精品国产综合久久福利软件| 日日操免费视频| 免费人成在线不卡| 日韩精品不卡| 国内自拍亚洲| 久久精品在线视频| av网站免费大全| 亚洲欧洲制服丝袜| 国产大学生av| aⅴ色国产欧美| 蜜桃av噜噜一区二区三区| 国产日韩电影| 伊人久久大香线蕉av一区二区| 少妇一级淫片日本| 国产精品乱码一区二三区小蝌蚪| 手机看片一级片| 亚洲综合激情在线| 国产一区二区视频在线免费观看| av电影院在线看| 日韩精品在线免费观看| 日韩精品在线一区二区三区| 国产精品视频一二三| а 天堂在线| 国产精品hd| 久久精品国产精品青草色艺| 欧美日韩国产v| 久久精品国产精品亚洲| 亚洲av永久无码国产精品久久| 亚洲成人激情综合网| 91成人破解版| 国产一区91精品张津瑜| 波多野结衣综合网| japanese国产精品| 92国产精品久久久久首页| 欧美hdxxx| 亚洲人成毛片在线播放| av在线资源观看| 精品久久久久久久久久久久久久 | 黄色av网站在线| 欧美精品日韩一区| 国产稀缺真实呦乱在线| 亚洲国产电影在线观看| 一级黄色大片免费看| 久久精品午夜| 欧美另类videosbestsex日本| 日日狠狠久久偷偷综合色| 成人免费福利在线| 美女的胸无遮挡在线观看| 色噜噜狠狠狠综合曰曰曰88av | 中文字幕日韩av| 亚洲精品综合网| 欧美性色综合网| 国产亚洲精品久久久久久无几年桃| 91色婷婷久久久久合中文| 日韩va在线观看| 国产精品美女久久久| 熟女熟妇伦久久影院毛片一区二区| 欧美激情影院| 1区1区3区4区产品乱码芒果精品| 播放一区二区| 性金发美女69hd大尺寸| 国产在线高清视频| 国产亚洲精品久久久久久牛牛| 999精品国产| 欧洲精品在线观看| 国产区在线观看视频| 亚洲欧美乱综合| 四季av中文字幕| 91视频精品在这里| 中文字幕在线播放一区| 国产一区二区免费看| www.久久久精品| 肉肉av福利一精品导航| 欧美精品自拍视频| 欧美视频一区| 国产女人18毛片| 99久久婷婷| 亚洲欧美日韩不卡一区二区三区| 亚洲春色h网| 精品国产一区二区三区麻豆免费观看完整版 | 男人的天堂亚洲在线| 免费在线观看视频a| 欧美国产91| 男人的天堂成人| 四季av在线一区二区三区| 日本日本精品二区免费| 最新精品国偷自产在线| 久久精品午夜一区二区福利| 果冻天美麻豆一区二区国产| eeuss一区二区三区| 涩涩屋成人免费视频软件 | 色天下一区二区三区| 99精彩视频| 在线精品国产亚洲| 国产精品久久九九| 极品国产人妖chinesets亚洲人妖| 97人人澡人人爽| 91成人精品在线| 国产精品初高中精品久久| 天堂精品久久久久| 成人免费91在线看| www.成人网| 精品久久久久久一区二区里番| 欧美成人午夜77777| 鲁丝一区二区三区免费| 伊人久久大香线蕉无限次| 欧美在线激情| 日韩精品首页| 欧美日韩视频免费在线观看| 国产精品麻豆久久| 狠狠精品干练久久久无码中文字幕| 亚洲国产精品91| 中国女人做爰视频| 国产欧美在线| 精品久久久久久久无码| 麻豆91精品视频| 三级黄色片免费观看| 国产成人综合网站| 特级西西人体4444xxxx| 久久毛片高清国产| 手机看片国产日韩| 亚洲综合一二三区| 人妻丰满熟妇av无码区| 欧美在线不卡视频| 国产视频在线观看免费| 欧美精品一区二| 你懂的在线播放| 久久精品成人欧美大片古装| 欧美78videosex性欧美| 91av免费观看91av精品在线| 成人看片网站| 1区1区3区4区产品乱码芒果精品| 老汉色老汉首页av亚洲| 欧美一区二区三区成人久久片| 欧美熟乱15p| 国产1区2区3区中文字幕| 欧美亚洲免费| 中文字幕一区二区三区四| 99久久精品免费精品国产| 日韩视频在线观看免费视频| 亚洲精品成人精品456| 久久精品视频7| 日韩午夜在线观看| 欧美高清电影在线| 欧美精品一区二区三区国产精品| 亚洲黄色中文字幕| 亚洲影影院av| 最近国产精品视频| 91免费国产精品| 秋霞电影一区二区| 欧美xxxxx精品| 最近日韩中文字幕| 黄色片网站在线免费观看| 91麻豆精品国产91久久久久久| 午夜av免费观看| 久久综合88中文色鬼| 成人黄色免费短视频| 都市激情久久久久久久久久久| 欧美色女视频| 国产精品12345| 国产精品99久久不卡二区| 一级片久久久久| 精品久久在线播放| 午夜精品久久久久久久91蜜桃| 一区二区三区视频在线| rebdb初裸写真在线观看| 亚洲www永久成人夜色| 精品久久久久久久久久久aⅴ| 日韩一级性生活片| 国产精品88888| 中文字幕求饶的少妇| 91福利视频网站| 亚洲欧洲视频在线观看| 久久夜精品va视频免费观看| 桃花岛成人影院| 久久青青草综合| 亚洲欧洲日本mm| 性xxxxxxxxx| 亚洲免费毛片网站| 国产又粗又猛又色又| 在线日韩精品视频| 日韩欧美精品电影| 欧美日韩天天操| 久久国产一二区| 波多野结衣福利| 疯狂做受xxxx欧美肥白少妇| 欧美性猛交 xxxx| 久久久久久久久久久免费精品| 国产一区二区| 中文字幕一区二区三区四区五区人 | 久久久久久久久久久国产| 日韩在线观看一区二区三区| 特级黄色录像片| 国产在线国偷精品免费看| 日本成人精品视频| 欧美猛男男办公室激情| 日本在线天堂| 亚洲aa中文字幕| 黄色日韩精品| 成人性生活免费看| 黑人巨大精品欧美一区二区免费| 亚洲av成人无码久久精品老人| 国产91精品视频在线观看| 亚洲第一二三区| 妺妺窝人体色www在线观看| 中文字幕成人av| 国产又粗又大又黄| 欧美乱大交xxxxx| jizzjizzjizz欧美| 人妻少妇被粗大爽9797pw| 国产亚洲一区二区三区| 中文字幕一区二区三区人妻四季 | 欧美人与禽zozzo禽性配| 日韩午夜在线影院| 91九色porn在线资源| 就去色蜜桃综合| 日本aⅴ精品一区二区三区| 搜索黄色一级片| 亚洲国产成人精品久久久国产成人一区 | 日韩在线看片| 久久久久久久久久一区二区| 亚洲欧美偷拍卡通变态| 欧美自拍第一页| 日本欧美国产在线| 日韩中文字幕高清在线观看| 三级黄色片免费观看| 精品国产乱码久久久久久天美| 黄网在线免费| 91久久国产综合久久蜜月精品 | 久久久久久高清| 国内精品美女在线观看| 亚洲制服丝袜在线播放| 91国模大尺度私拍在线视频| 日日夜夜精品一区| 爱情岛论坛亚洲入口| 在线亚洲国产精品网站| 91中文字幕永久在线| 91精品视频网| 偷拍自拍在线看| 国产又爽又黄ai换脸| 成人av资源在线观看| 99re热视频| 九九久久久久久久久激情| 偷窥自拍亚洲色图精选| 中日韩av在线播放| 精品国产乱码久久久久酒店| av资源种子在线观看| 国产精品入口免费| 免费欧美在线视频| 国产在线观看免费视频今夜| 国产一区二区久久精品| 99久久人爽人人添人人澡 | 亚洲国产精品久久精品怡红院| 久久亚洲精品爱爱|