Google公開與Gemini大模型聊一次耗能 ≈ 電視播放9秒 或 微波爐運行1秒 | 且看他怎么算的
大模型在服務時的能源消耗一直備受關注,但具體的能耗數據,尤其是來自頭部公司的數據,長期處于未知狀態。這兩天,Google發布了一篇研究論文,首次系統性地披露了其Gemini大模型在真實生產環境中,與用戶聊一次(也就是響應一次用戶提示,即常說的Prompt)的能源消耗——約0.24瓦時 (Wh) 。
為了讓這個數字更具實感,論文將其與日常活動進行了對比:這大致相當于一臺現代電視機播放9秒,或是一臺家用微波爐運行1秒所消耗的電能,或是人類大腦思考43秒(人類大腦的平均功率約為20瓦)。此外,完成這次響應還需間接消耗約0.26毫升的水,形象地說,大約是5滴水。
這個數值顯著低于許多早期的第三方估算,引發了業界的廣泛討論。那么,Google是如何精確計算出這個數字的?
解構0.24瓦時:全面衡量AI服務的真實能耗
要準確評估大模型的能耗,僅僅關注AI加速芯片(如GPU或TPU)是遠遠不夠的。Google此次采用了一種“綜合測量方法” (Comprehensive Approach),旨在覆蓋大模型服務全鏈條中的所有關鍵能耗環節,從而提供一個更完整、更真實的能耗視圖。值得注意的是,該數值代表的是響應一個“典型”提示的能耗。為避免被少數極度復雜的提示拉高數據,Google計算的是所有提示能耗排序后的“中位數”,而非簡單的算術平均值。這使得0.24瓦時這個數字更具代表性。
一次Gemini響應的0.24瓦時能耗,主要由以下四個部分構成:
- 活躍AI加速器 (占58%, 約0.14 Wh) :這是能耗的核心部分,即專門用于模型推理計算的硬件(如Google的TPU)在工作時消耗的能量。這是驅動AI“思考”的直接能源開銷。
- 活躍CPU與內存 (占24%, 約0.06 Wh) :AI加速器需要主機CPU和DRAM內存的協同工作,以完成任務調度、數據傳輸等功能。這部分是保障AI系統穩定運行不可或缺的支撐能耗。
- 閑置機器資源 (占10%, 約0.02 Wh) :為了保證全球用戶能夠隨時獲得快速、可靠的服務,必須預留一部分服務器處于待命狀態。這些“閑置”資源雖然未在執行計算,但其基礎待機功耗是維持服務高可用性的必要成本。
- 數據中心基礎設施開銷 (占8%, 約0.02 Wh) :這部分能耗來自于維持數據中心運行的龐大基礎設施,主要是指用于服務器散熱的冷卻系統,以及電力在傳輸和轉換過程中的損耗。這也是AI服務會消耗水資源的主要原因。
通過將這四個部分系統性地納入考量,Google得以描繪出AI服務在真實世界中的完整能源足跡。
驚人的效率提升與未來展望
該研究報告最具啟發性的發現,并非僅僅是當前的能耗數字,而是AI能效優化的驚人速度。
報告數據顯示,通過在模型架構、算法、軟硬件協同設計以及數據中心運營效率等方面的持續優化,從2024年5月到2025年5月的短短一年間,Gemini單次響應的平均能耗降低了33倍,相應的碳足跡減少了44倍。
這一成果源于系統性的工程努力,包括但不限于:構建更高效的Transformer模型架構、應用先進的量化算法、設計專為AI負載優化的TPU芯片,以及部署行業領先的超高效率數據中心。
這清晰地表明,當前公布的0.24瓦時能耗,僅僅是技術發展途中的一個動態快照。AI的能源效率正沿著一條非常陡峭的曲線持續改進。隨著未來更先進的模型、功耗更低的硬件和更綠色的能源策略被不斷應用,AI服務的單次能耗仍有巨大的優化空間。
附錄
本文轉載自???后向傳播???,作者: 張發恩

















