Transformer之父曝AGI下一步!大模型不再拼參數,三大硬件成關鍵 原創
當整個行業都在比拼千億參數模型時,大模型真正需要的可能不是更大的規模。在硅谷舉行的 Hot Chips 2025 首日主題演講上,Transformer 發明者之一、谷歌 Gemini 聯合負責人 Noam Shazeer 給出了不一樣的答案。
?

?
作為谷歌Gemini的聯合負責人,Noam Shazeer認為語言建模是"有史以來最好的問題",但他指出大模型真正需要的是三大硬件支撐:更高的計算能力、更大的內存容量和帶寬,以及更快的網絡帶寬。
?
很多人不知道,2015 年時在 32 個 GPU 上訓練模型就已經是重大成就,而現在訓練先進模型則需要數十萬個 GPU 協同工作。Shazeer 在演講中展示的這組數據,直觀呈現了大模型算力需求的爆炸式增長。
?
但他話鋒一轉指出,單純堆砌硬件規模就像給賽車不斷加裝引擎卻不優化傳動系統,真正的效率提升來自對每一份計算資源的精細利用。這解釋了為什么他創辦的 Character.ai 能將推理成本降低到原來的 1/33,而如果用市場上最好的商業 API 支撐同等流量,成本會高出 13.5 倍。
?
這位曾因谷歌拒絕發布其聊天機器人成果而離職創業,最終又以 27 億美元合作價回歸谷歌的 AI 老兵,用十年行業經驗揭示了一個被忽視的真相:大模型的下一站突破,藏在硬件與軟件的協同進化里。
?
在 Character.ai 的實踐中,Shazeer 團隊將 Transformer 架構的 KV 緩存大小減少了 20 倍以上。他們全面采用 Shazeer 本人 2019 年提出的 MQA 架構,相比常見的 GQA 架構直接減少 8 倍緩存,再通過跨層 KV 共享技術進一步壓縮 2-3 倍顯存占用。
?

?
更巧妙的是他們設計的注意力狀態緩存機制,讓 95% 的對話請求無需重新計算,這種工程智慧比單純增大模型規模更能解決實際問題。就像他在演講中回憶的,早期 Transformer 原型性能并不優于 LSTM,是他移除了冗余的卷積模塊,才讓這個架構真正發揮威力。
?
Shazeer 在演講中系統闡述了大模型對硬件的三大核心需求。
?

?
首先是更多算力,數以千萬億次的浮點運算能力直接決定模型規模和訓練效率。
?
但他特別強調內存帶寬的重要性,帶寬不足會限制模型結構靈活性,就像狹窄的高速公路會讓再多車輛也無法快速通行。
?
在 Character.ai 的生產模型中,每 6 層只有 1 層使用全局注意力,其余都采用滑動窗口的局部注意力,這種設計將計算復雜度從平方級降至線性,卻不影響核心性能。
?
容易被忽視的網絡帶寬同樣關鍵。當模型分布在多塊芯片上時,長思維鏈推理需要快速訪問所有參數,這時候芯片集群的整體內存帶寬就成了響應速度的瓶頸。
?
Shazeer 團隊通過混合注意力視野設計,在保證長上下文理解能力的同時,讓數據傳遞效率提升數倍。他在演講中笑著說,當年面試谷歌時提出的拼寫校正方案比現有系統更優,這種從實際問題出發的思維方式,正是他持續優化大模型的關鍵。
?
微軟亞洲研究院的最新研究也印證了這一方向。他們提出的 DELT 數據組織范式,通過優化訓練數據的排序策略,在不增加數據量的情況下顯著提升模型性能。就像合理安排課程表能讓學生學習效率更高,給模型按難度和質量排序訓練數據,同樣能挖掘出更大潛力。
?

?
這種數據效能提升與硬件優化形成的合力,正在重塑大模型的發展路徑。
?
Shazeer 在演講結尾被問到一個尖銳問題:如果硬件不再進步,還能實現 AGI 嗎?他給出了肯定答案,因為軟件創新和系統設計的優化仍有巨大空間。但他也補充說,更好的硬件會讓這一天來得更快。
?
這個觀點正在日常應用中逐漸顯現,當我們與 AI 助手流暢對話時,背后是 KV 緩存優化帶來的即時響應;當手機也能運行復雜模型時,要歸功于低精度量化技術的突破。
?
從 Transformer 架構的極簡設計到 Character.ai 的工程優化,Shazeer 的探索之路揭示了大模型真正需要的不是盲目擴張,而是對效率和協同的極致追求。
?
算力,仍然是 AI 下一階段的核心需求之一。然而,當算力不再被浪費,當每一份數據都發揮價值,AI 才能真正走進生活的每個角落,這或許就是 AGI 最切實的下一步。
?

















