老黃給H100“打雞血”:英偉達推出大模型加速包,Llama2推理速度翻倍
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
大模型的推理速度,僅僅一個月就提高了一倍!
英偉達近日官宣給H100推出了“雞血包”——專用于LLM推理的加速程序。
或許這下可以不用空等明年才能交付的GH200了
。

GPU的運算能力一直影響著大模型的表現,無論是硬件提供者還是使用者都希望能算得更快些。
而作為大模型背后硬件的最大供應商,英偉達一直在研究怎么給大模型硬件加速。
通過與多家AI公司合作,英偉達終于推出了大模型推理優化程序TensorRT-LLM(暫且簡稱TensorRT)。
TensorRT不僅能讓大模型的推理速度翻番,使用起來也十分方便。
無需深入了解C++和CUDA,也能快速定制優化策略,在H100上更快地跑大模型。
英偉達科學家范麟熙(Jim Fan)轉發并評論稱,英偉達的“另一項優勢”就是可以最大化利用GPU性能的配套軟件。

英偉達通過軟件給產品打雞血,仿佛在實踐老黃的那句“買的越多省的越多”,但這也并不妨礙有人嫌貴:

除了價格,也有網友對其運行效果提出了質疑:
我們總是看到(宣傳中的)多少倍的性能提升,但自己運行Llama 2的時候每秒還是只能處理幾十個token。

到底是不是真的有效可能還需要繼續檢驗,我們先來具體了解一下TensorRT。
大模型推理速度翻倍
TensorRT-LLM優化之后的H100,跑大模型到底有多快呢?
英偉達的通告中給出了Llama 2和GPT-J-6B兩種模型的數據。
在優化后的H100上,跑Llama 2的推理速度則是A100的4.6倍、八月份未優化版H100的1.77倍。

而GPT-J-6B的推理速度是A100上的8倍、八月未優化版的2倍。

TensorRT還提供了開源的模塊化Python API,根據不同LLM的需求,可以快速定制優化方案。
這個API將深度學習編譯器、內核優化、預/后處理和多節點通信功能集成到了一起。
其中針對GPT(2/3)、Llama等常見模型,還有已經定制好的版本,可以“開箱即用”。
通過TensorRT中最新的開源AI內核,開發者還可以對模型自身進行優化,其中就包括了讓Transformer大大提速的注意力算法FlashAttention。
那么TensorRT又是如何對LLM推理速度進行優化的呢?
首先要得益于TensorRT對多節點協同工作方式進行了優化。
像Llama這樣龐大的模型,在單卡上是跑不起來的,需要多塊GPU一起跑才能帶動。
過去,這一工作需要人們手工把模型拆開來實現。
而有了TensorRT,系統可以自動化地對模型進行拆分,并通過NVLink在多GPU間高效運行。

其次,TensorRT還利用了一種名為動態批處理的優化調度技術。
LLM在推理過程中,實際上是在多次執行模型迭代。
動態批處理技術會將已完成的序列立即踢出,而不是等待整批任務完成后再處理下一組請求。
實際測試中,動態批處理將LLM的GPU請求吞吐量減少了一半,大大降低了運行成本。
另一個關鍵點則是將16位精度浮點數轉換為8位精度,從而降低內存消耗。
FP8與訓練階段的FP16相比消耗的資源更低,同時精確度又高于INT-8,在提高性能的同時不影響模型的準確性。
通過Hopper Transformer引擎,FP16到FP8的轉化編譯由系統自動完成,無需人工對模型中的任何代碼進行修改。
目前,TensorRT-LLM的早鳥版已經可以下載,正式版將于幾周內推出并集成到NeMo框架中。
One More Thing
每當大事件出現,總少不了“列文虎克”的身影。
英偉達的公告中提到了“在與Meta等AI頭部公司合作”,但沒有提及OpenAI。
從這則通告中,就有網友發現了這個華點,并發到了OpenAI論壇上:
讓我康康是誰沒被老黃cue到(手動狗頭)

你還期待老黃帶給我們什么樣的“驚喜”呢?





































