大模型訓練“練兵千日”,別輸在AI推理“用兵一時”

2025年被認為是AI智能體的元年,是AI走向大規模應用的開始。隨著AI應用爆發,算力的需求邏輯也正在被重塑:AI推理——而不是訓練,將成為未來算力需求的核心增長點。
這種趨勢在剛剛結束的2025年世界人工智能大會(WAIC)多有體現。一方面,主流大模型玩家紛紛推動成熟產品“瘦身”,以輕量化模型適配更多終端設備。另一方面,多家AI Infra創企押注AI推理芯片,搶抓AI模型從實驗室走向生產場景的紅利。
中信建投在2025 WAIC期間發布的白皮書指出,隨著AI算力消耗從訓練向推理的結構性轉變,國內算力消耗正快速增長(如字節跳動每三個月Token消耗接近翻一倍,5月底為16.4萬億Token),按此趨勢主流云服務商將很快感受到算力緊張、出現算力缺口。
就在這個節骨眼上,中美AI推理體驗的鴻溝已經顯現。相比以美國為代表的領先國家,中國大模型的推理體驗(包括時延、準確度、上下文推理等方面)已大幅落后;風靡一時的DeepSeek等國內開源大模型,活躍用戶數遭遇了嚴重下滑。
如果說大模型訓練是“練兵千日”,那么推理就是“用兵一時”。站在2025這個本該兌現AI商用價值的關鍵時刻,推理算力卻成了新的“吞金獸”,不持續“堆芯片”用戶體驗就難以為繼,這要求全球各國、各行各業都引起高度重視,找到推理體驗與算力成本的平衡點。
尤其是對于高端算力芯片受限、軟件及生態薄弱的中國AI產業來說,我們必須在“戴著鐐銬跳舞”的現實中尋求新的突破、找到新的解法,別讓中美AI競爭輸在“最后一公里”!
Token經濟時代:打不起的價格戰,輸不得的體驗戰
在AI商業化過程中,Token(詞元)被迅速推至臺前。它既是大模型訓練及推理過程中處理的最小語義單元,也是最基礎的計量計費單位,用于衡量AI產品服務使用量和商業化收費標準,因而AI時代也被稱為Token經濟時代。
類似于移動通信數據流量伴隨3G-4G-5G升級而大幅提升,隨著模型逐漸復雜化和業務場景不斷豐富,用戶的Token消耗量也在與日俱增。比如,智能體(Agent)執行一次任務平均消耗的Token已達到10萬量級;海量用戶匯聚使得單個頭部大模型日均Token消耗量已達百億級,推理成本持續攀升。
這種成本攀升折射到國內市場,可以發現去年打得火熱的Token價格戰到今年已經趨于冷靜,主流大模型廠商已從單純降價轉向技術升級與場景優化結合(包括支持超長文本處理、多模態推理等差異化能力),避免淪為芯片廠商的“打工人”,甚至賠本賺吆喝。
即便如此,受限于高端芯片供給和資本開支差距,中國大模型的推理體驗已經落后于美國領先大模型。資料顯示,OpenAI O3 mini、Google Gemini等模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),中國普遍小于60 Tokens/s(時延50~100ms)。比如OpenAI O3 mini每秒能輸出的Token(214個)約為DeepSeek(21個)的10倍,用戶會直接感受到OpenAI給出回答的時間要比DeepSeek快很多。
體驗掉隊的代價是巨大的。有數據顯示,相比其他頂尖模型用戶數持續增長,DeepSeek用戶數自發布后絕對流量一直在下降,其使用率已從年初的50%暴跌至當前的3%左右,用戶正在從DeepSeek流失轉向其他模型應用。
一言以蔽之,不同于邊際成本極低的互聯網時代,算力成本高企(GPU價格昂貴且超負荷使用兩三年就得換新)的Token經濟時代,Token量越大越是打不起價格戰,當然也輸不得體驗戰。要在AI時代健康可持續發展,必須解決推理體驗與算力成本平衡的難題。
“戴著鐐銬跳舞”:GPU+HBM被鎖死,軟件生態也旁落
面對這一難題,在以美國為首的算力充沛國家,中高端GPU搭載HBM(高帶寬內存)的產品形態已成為主流趨勢。MLPerfTM基準測試顯示,HBM可使推理速度提升30-60%;反之,HBM不足時,推理體驗會明顯下降,如出現任務卡頓、響應慢等問題。
背后的技術邏輯在于,AI推理需要頻繁讀取模型參數和輸入數據,而HBM是解決“數據搬運”的關鍵。作為一種通過3D堆疊和超寬接口實現極高數據傳輸帶寬的先進內存技術,HBM可顯著提升內存與GPU、NPU等處理器之間傳輸數據的速度,確保計算核心以極高的速度獲取所需的數據,從而最大限度利用AI加速器的強大算力,提高推理吞吐量。
然而,和中高端GPU一樣,全球HBM市場也高度集中并掌握在國外頭部廠商手里。它們與先進芯片一起被納入美國“長臂管轄”的銷售管制清單,中國廠商無法獲取(特供版GPU和HBM能力都被嚴重“閹割”),導致中國大模型的推理體驗提升受到極大制約,“錢花了還辦不成事”。
更觸目驚心的是,“戴著鐐銬跳舞”(比如使用英偉達的低端H20產品)的中國模型服務商,正匍匐在一條將應用生態構筑在別人“地基”(比如英偉達CUDA)之上的老路。當英偉達通過“硬件迭代→軟件優化→生態綁定”構建起推理時代的“鐵三角”時,中國廠商連對方的低端產品也很難離開(調研顯示從英偉達等生態遷移至國產平臺需重構70%代碼,成本相當于三個程序員年薪),完全陷入美國編織的AI秩序里。
這里面涉及的技術賬、經濟賬、安全賬都是十分沉重的,必須引起高度的重視!從技術效率上講,低端技術長期看肯定打不過中高端技術,必然導致產品競爭力下降;從經濟成本看,“質次價高”的特供芯片,絕非平衡推理體驗與算力成本的優選方案;從供應鏈安全角度看,國產化遷移改造的歷史進程,絕對容不得算力芯片漏洞后門的掣肘。
破局之道暢想:從單點突破到系統創新,重視軟件及生態
何以破局?參照我國在AI訓練階段的突圍之道(比如昇騰384超節點以集群方式突破性能極限),AI推理或許也可以從單點突破走向系統創新,重視軟件能力并及早培育生態,彌補硬件物理層面的不足和限制,探尋一條可持續、可復制的最佳路徑。
從技術層面看,AI推理的關鍵在于鍵值緩存(KV Cache),其好比一份“上下文備忘錄”——緩存前面所有內容的關鍵信息(Key和Value),讓AI生成下一個詞時不用重復計算歷史信息,從而大幅加速推理過程。但KV Cache需要占用GPU的顯存(如HBM),生成的文本越長,緩存的數據量就越大,容易觸發容量限制,導致推理時延增加、吞吐量下降。業界可以考慮通過硬件+軟件系統創新的方式,將KV Cache緩存至存儲層,以AI存儲方案加速AI推理,減少對昂貴HBM的依賴。
從生態層面看,面對國產化改造和AI推理爆發的巨大機遇,業界龍頭廠商、行業頭部用戶要站出來先行先試,驗證技術方案,打造聯盟生態,別讓“樓房建起來了再去重構地基”,費時費力又費錢。特別是數字化程度高、數據密度大、AI應用場景豐富的金融、醫療、教育等行業,一定要從一開始便算好技術賬、經濟賬和安全賬,以生態之力護航AI轉型行穩致遠。
回顧過去,美國憑借龍頭企業技術引領+產業生態深度協同的“組合拳”,統治了計算產業從專用計算到通用計算的大部分時期。就在7月下旬,美國又發布了《贏得AI競賽:美國AI行動計劃》,再次顯露主導全球人工智能發展的野心。此時此刻,在AI大模型“練兵千日,用兵一時”的歷史拐點,產業各界必須警覺起來,別讓中美AI競爭輸在“最后一公里”!































