搶跑GPT-5,智譜開源新SOTA模型,一句話搞出能看視頻、發彈幕的B站!
就在剛剛,智譜GLM史上最大開源大模型來襲——
代碼和Agent,直接拿下開源模型的SOTA,推理拿下開源模型第二。
更重要的是,這是首次在單個模型中把這三個能力進行了原生融合的那種。

它就是智譜最新發布的新一代旗艦大模型,GLM-4.5。
從評測維度來看,榜單挑選了最具代表性的12個評測基準,包括:
MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3 和BrowseComp。
評測結果顯示,GLM-4.5的綜合平均分全球范圍內第三(僅次于閉源的o3、Grok4),而在開源和國產兩個維度均取得第一的成績!
整體來看,GLM-4.5采用的是MoE架構,并且全面開源,包括2個產品:
- GLM-4.5:總參數量3550億,激活參數為320億;
- GLM-4.5-Air:總參數量1060億,激活參數為120億。
除此之外,速度和價格,也是GLM-4.5的大亮點。
因為它的最快生成速度,已經是來到了100 tokens/s大關了!可以說是遠超、秒殺其它AI:

價格方面也是遠低于目前的主流大模型:API調用價格輸入0.8元/百萬tokens,輸出2元/百萬tokens。

而且在智譜正式發布動作之前,彭博社就來了一波預告:
OpenAI在中國的對手——智譜,將發布一個新的開源模型。

這則預告字里行間所透露的信息,可見海外世界對GLM模型的關注。
然而在一番體驗下來之后我們發現,相比于OpenAI,智譜這次做到了更超前。
因為有傳聞GPT-5將在本周上線,也有網友已經開始曬出“秒出網頁”這樣的功能。
但這一切,已經可以在GLM-4.5這里體驗;更重要的一點是,開源,開源,開源。
真·言出法隨:一句話搞出能用的APP
目前,GLM-4.5已經可以在智譜清言 (chatglm.cn) 和Z.ai上免費體驗滿血版。
例如在Z.ai上,我們只需在模型下拉菜單中選擇“GLM-4.5”即可:

然后我們現在就來實測一下它的能力,Prompt是這樣的:
做一個百度搜索網站,頁面樣式要和百度高度相似,并且可以進行正常的搜索。

可以看到,在一句話Prompt之后,GLM-4.5就開始“唰唰唰”自己敲起了代碼。
在片刻之后,我們就得到了這樣的結果:

如何?界面樣式是不是有點百度搜索的味道了?
但到這兒還沒完,因為它,是真的能搜索!例如我們搜“智譜”,就能搜到它的官網,點擊之后就可直接跳轉了:

完整過程是這樣的:
同樣的道理,我們現在也可以復刻一個AI版的小紅書:
做一個跟小紅書高度相似的內容社交網站,對帖子可以點贊、收藏和發布留言。

繼續加大難度,若是想打造一個B站一樣的視頻網站,是否也OK呢?

穩穩拿捏住了,甚至還可以播放視頻、發彈幕!
想體驗一下的小伙伴可戳:https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
當然,除了這些炫酷的功能之外,我們還能用GLM-4.5來做一些非常實用的事,例如做教案PPT:
制作初中化學老師講課用的PPT,為人教版初三化學下冊第十單元“酸和堿”的第一課時“常見的酸和堿”制作一個教學PPT。

區別于傳統AI PPT通過模板套用信息的方式,GLM-4.5能夠主動收集資料、匹配合適的圖片,并基于實際素材直接生成HTML格式的圖文內容,實現了更精確的信息呈現和更自由的版面設計。
由此可見,GLM-4.5在實用性、可用性方面,可謂是站在了一眾AI的前面。
并且為了測試GLM-4.5在真實編程場景中的表現,智譜團隊還把它和Claude Code、Claude-4-Sonnet、Kimi-K2、Qwen3-Coder放在一起做對比。
團隊設計了52個編程任務,覆蓋了六個主要的開發方向,讓這些模型在獨立的測試環境中進行多輪互動測試。
從實際測試結果來看,GLM-4.5比其他開源模型表現更好,尤其是在調用工具的穩定性和完成任務的成功率上優勢明顯。
例如Claude 4都搞不出來的《羊了個羊》,現在GLM-4.5一句話就能搞定:https://cwb660.github.io/match-3-game/

雖然GLM-4.5與Claude-4-Sonnet相比還有改進的余地,但在大多數使用場景下已經可以達到替代效果。

與此同時,團隊為確保評測透明度,還公布了52道題目及Agent軌跡(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),供業界驗證復現。
技術博客也已發布
正如我們剛才提到的,GLM-4.5采用的是MoE架構,以提升訓練和推理的計算效率;MoE層采用了無損均衡路由機制和Sigmoid門控。
在模型結構設計上,相較于DeepSeek-V3和Kimi K2,智譜團隊選擇在縮小模型寬度(包括隱藏維度和路由專家數量)的同時增加深度(層數),因為實驗發現更深的模型在推理任務中表現更優。
在自注意力模塊中,團隊引入了分組查詢的RoPE位置編碼方式,并使用了 2.5 倍數量的注意力頭(以5120的隱藏維度為例,設置了96個頭)。
有趣的是,盡管增加頭數并未在訓練損失上帶來顯著優勢,但在MMLU和BBH等推理基準測試中表現持續優于低頭數模型。
在優化器選擇上,智譜團隊采用了Muon,以加快收斂速度并支持更大的批量大小。同時,為了穩定注意力對數范圍,引入了QK-Norm技術。
此外,在GLM-4.5與GLM-4.5-Air中,團隊還加入了MTP(多標記預測)層,以支持推理階段的推測式解碼。

智譜的基礎模型經歷了多個階段的訓練。
在預訓練階段,模型首先在15T的通用預訓練語料上進行訓練,隨后在 7T 的代碼與推理相關語料上繼續訓練。在完成基礎預訓練后,團隊又引入了若干額外階段,以進一步提升模型在關鍵下游任務中的表現。
不同于此前基于大規模通用文檔的預訓練,這些后續階段主要依托中等規模的特定領域數據集,包括各類指令類數據。

為支持GLM-4.5等大規模模型所需的高效強化學習(RL)訓練,智譜團隊設計、開發并開源了強化學習基礎設施Slime。
該系統在靈活性、效率和可擴展性方面均經過精心打磨,智譜也積極鼓勵社區廣泛使用并參與共建。
Slime 的主要創新旨在克服常見的強化學習(RL)瓶頸,尤其是在復雜的智能體任務中。
- 靈活的混合訓練架構:Slime的核心優勢在于其多功能的混合架構。它支持同步、共置訓練,適用于傳統應用如推理和通用強化學習,同時還支持分散的異步訓練模式。這種異步范式對于高級智能體強化學習至關重要,因為數據生成可能是一個緩慢的外部過程。通過解耦訓練和數據收集,它確保訓練 GPU 保持完全飽和,最大化硬件利用率。
- 解耦的面向智能體設計:智能體強化學習常常在環境回滾期間遇到緩慢且長尾延遲分布,嚴重限制了訓練吞吐量。為了解決這一問題,Slime 實現了一個完全解耦的基礎設施,將回滾引擎與訓練引擎分離。這些組件在不同硬件上獨立運行,將數據生成瓶頸轉變為并行的非阻塞過程。這種設計對于加速長視野智能體任務至關重要。
- 使用混合精度加速數據生成:為了進一步提高吞吐量,Slime 采用混合精度推理加速回滾。它策略性地在數據生成中使用高效的FP8格式,同時在模型訓練循環中保持BF16的穩定性。這種技術顯著提高了數據生成速度,同時不會影響訓練質量。
- 這種內聚的設計使得slime能夠無縫集成多個智能體框架,支持多樣化的任務,并通過統一且強大的接口高效管理長期展開過程。

對于LLM來說,通過自我生成的探索性體驗迭代增強其策略的后訓練過程至關重要。強化學習已成為推動模型能力邊界的關鍵步驟。
對于GLM-4.5,除了整合GLM-4-0414的通用能力和GLM-Z1的推理能力外,團隊特別增強了智能體(Agent)能力,包括智能體編程、深度搜索和通用工具使用。
這個過程從對精選的推理數據和綜合的智能體場景進行監督微調開始,隨后通過專門的強化學習階段培養專家模型。
- 對于推理,團隊在整個64K上下文中進行單階段強化學習,并采用基于難度的課程設計,團隊發現這比漸進式調度更為優越。智譜引入了改進的強化學習技術以確保穩定性:動態采樣溫度以平衡探索和利用,以及針對STEM問題的自適應裁剪策略,以實現穩健的策略更新。
- 對于智能體任務,訓練正在兩個可驗證的任務上進行:基于信息檢索的問答和軟件工程。智譜開發可擴展的策略,通過人機交互提取并選擇性模糊化網頁內容來合成基于搜索的問答對。編碼任務由真實世界軟件工程任務的執行反饋驅動。
由此可見,GLM-4.5的高性能并非單一技術的突破,而是一個系統性工程的成果。
并且從參數效率角度來看,GLM-4.5的參數量僅為DeepSeek-R1的一半、Kimi-K2的三分之一,卻在多項標準基準測試中展現出更優異的表現,充分體現了GLM模型卓越的參數效率。
特別值得關注的是,GLM-4.5-Air憑借106B總參數/12B激活參數的配置實現了顯著突破,在推理基準上達到了與Gemini 2.5 Flash、Claude 4 Sonnet相媲美的水平。
在代碼能力評估的權威榜單SWE-bench Verified上,GLM-4.5系列占據性能/參數比帕累托前沿,證明了其在同等規模下的最優性能表現。

智譜,給國產開源大模型上了個大分
如果說之前的AI競賽是“百模大戰”,那么智譜GLM-4.5的發布,則可以說是為這場競賽的下半場樹立了新的標桿。
它不僅在多個關鍵評測維度上取得了國產和開源領域的冠軍,更重要的是,它向我們展示了一種更高效、更融合、也更具前瞻性的技術路徑。
在各大廠商紛紛追求千億甚至萬億參數的“軍備競賽”中,智譜展現了不同的思考。GLM-4.5憑借其先進的MoE(混合專家)架構和精巧的系統工程設計,以遠少于同行的參數量,實現了超越性的性能。
從評測結果來看,無論是對標DeepSeek-R1還是Kimi-K2,GLM-4.5都以更小的“身軀”爆發出了更強的能量。
當業界還在紛紛猜測和等待OpenAI的GPT-5將帶來何種革命性功能時,智譜已經將類似的、甚至更強大的Agent能力通過GLM-4.5直接開源,并開放給所有用戶免費體驗。
這種“不等、不靠”,用自研實力走在行業“傳聞”之前的做法,本身就是一種自信和超前。
總而言之,GLM-4.5的問世,不僅僅是智譜自身的一次技術躍遷,更是為國產開源大模型領域注入了一劑強心針。
它用硬核的性能、前瞻的架構和開放的姿態,證明了中國AI力量不僅能夠追趕,更具備了定義下一代模型標準的能力。
這無疑是給國產AI,乃至全球開源社區,上了一個“大分”。
最后,體驗地址放下面了,感興趣的小伙伴可以嘗鮮了哦~
https://chat.z.ai/
技術報告地址:
https://z.ai/blog/glm-4.5
































