GLM4.5正式開(kāi)源,真實(shí)測(cè),全棧開(kāi)發(fā)能力封神,免費(fèi)可玩。對(duì)話劉昊然:南京照相館PPT著實(shí)震撼! 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
今天凌晨,智譜新開(kāi)源了自家的最強(qiáng)模型 GLM 4.5。
從官方發(fā)布了的博客看,這次發(fā)布聚焦在了三項(xiàng)能力:推理、coding 和 Agentic 任務(wù)。
圈里一些朋友反饋看,說(shuō)它拿下了新一輪的卷王寶座,小編反而覺(jué)得 GLM 這次發(fā)布沒(méi)那么簡(jiǎn)單,有幾項(xiàng)新的功能,可以說(shuō)市面上僅此一家。
這里還是先“省流”地的說(shuō)幾點(diǎn)官方公開(kāi)的功能亮點(diǎn),然后就開(kāi)始實(shí)測(cè)一波。
在智能體任務(wù)基準(zhǔn)測(cè)試中,GLM 4.5 拿下了媲美 Claude 4 Sonnet 相媲美的成績(jī)。尤其在函數(shù)調(diào)用方面,超過(guò)了 K2 和 Qwen3,登頂?shù)谝弧?/p>
此外,全棧開(kāi)發(fā)能力也非常強(qiáng)悍,開(kāi)發(fā)環(huán)境中的交互能力也拿到了第一。
第三點(diǎn),GLM 4.5 自帶的 AI PPT 功能非常與眾不同,可以結(jié)合 HTML 代碼和圖像搜索插件,逐頁(yè)制作演示文稿,設(shè)計(jì)感碾壓市面上的產(chǎn)品。
先說(shuō)Highlight
對(duì)于大模型側(cè)而言,智譜也是一個(gè) AGI 的忠實(shí)擁躉。這次的 GLM 4.5,這次的重點(diǎn)是治理于將大模型的研發(fā)往前推進(jìn)一步:解決真實(shí)世界中的實(shí)際問(wèn)題。
圖片
具體思路就是:
我們現(xiàn)在有很多模型,有的擅長(zhǎng)寫代碼,有的擅長(zhǎng)數(shù)學(xué),有的擅長(zhǎng)推理,卻沒(méi)有一個(gè)能在所有任務(wù)中都做到最優(yōu)表現(xiàn)。
GLM-4.5 正是在努力解決這個(gè)問(wèn)題:統(tǒng)一多種能力于一體。基于此,智譜團(tuán)隊(duì)圍繞這個(gè)命題,將 GLM-4.5 與 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、Moonshot 和 DeepSeek 的多個(gè)模型進(jìn)行對(duì)比,在12個(gè)基準(zhǔn)測(cè)試中涵蓋:
- Agentic(智能體類任務(wù))3項(xiàng)
- Reasoning(推理任務(wù))7項(xiàng)
- Coding(編程任務(wù))2項(xiàng)
最后做了整體評(píng)估。綜測(cè)結(jié)果顯示:
1、工具調(diào)用成功率登頂:GLM-4.5 達(dá)到 90.6%,超越 Claude-Sonnet(89.5%)、Kimi K2(86.2%)和 Qwen3-Coder(77.1%)。
2、GLM-4.5 在 命令行模擬任務(wù) Terminal-Bench 中拿下第一,展示其在開(kāi)發(fā)環(huán)境中具備一定交互式控制能力。
3、在 SWE-bench 是編程實(shí)戰(zhàn)測(cè)試中,GLM-4.5 與 Claude Sonnet 不分伯仲,顯著領(lǐng)先 GPT-4.1。
4、Agentic Coding 勝率數(shù)據(jù):GLM-4.5 對(duì)比 Kimi K2 的 52 項(xiàng)任務(wù)勝率為 53.9%,對(duì) Qwen3-Coder 勝率為 80.8%,表現(xiàn)強(qiáng)勢(shì)。

上面,這一堆數(shù)字可能大家現(xiàn)在都免疫了。所以小編在實(shí)測(cè)了之后,總結(jié)了下 GLM 4.5 的亮點(diǎn)功能。大家不妨一看:
- 支持多種工具協(xié)作開(kāi)發(fā):可無(wú)縫對(duì)接 Claude Code、RooCode、CodeGeex 等插件,實(shí)現(xiàn)端到端開(kāi)發(fā)。
- 全棧開(kāi)發(fā)能力強(qiáng):從前端頁(yè)面、美觀 UI 到后端部署,GLM-4.5 生成的界面功能性與美學(xué)兼顧,符合人類審美。
- PPT / 海報(bào)生成能力強(qiáng):GLM-4.5 結(jié)合 HTML 代碼和圖像搜索插件,可以生成帶有設(shè)計(jì)感的完整演示文稿。
- 多輪交互式開(kāi)發(fā):提供基礎(chǔ)項(xiàng)目骨架后,用戶只需“加需求”,模型就能自動(dòng)拓展功能并調(diào)試。
實(shí)測(cè)效果究竟如何?
先說(shuō)一個(gè)實(shí)測(cè)感受,就是 GLM 4.5 執(zhí)行任務(wù)是真慢,但慢的理由是值得的。
因?yàn)樗娴囊绕渌忻嫔系拇竽P停梢园盐覀儗?shí)際工作生活中的復(fù)雜任務(wù)做出非常 amazing 效果。
出于篇幅關(guān)系,小編做了兩個(gè)能力方面的用例實(shí)戰(zhàn)。
一個(gè)是全棧開(kāi)發(fā)能力方面。因?yàn)樾【幙吹揭恍┕倬W(wǎng)上舉的一些例子:賽博功德計(jì)數(shù)器、夢(mèng)幻三消小游戲什么的,感覺(jué)有些太幼稚了。
圖片
所以索性還是圍繞小編目前籌劃的播客站點(diǎn),想了一個(gè)測(cè)試題目:
幫我設(shè)計(jì)一個(gè)射雕三部曲的播客選題的站點(diǎn),要求:
1、界面是金庸武俠風(fēng)格
2、背景有羽毛緩慢飄動(dòng)
3、自行發(fā)揮各個(gè)板塊
然后,GLM 4.5 就開(kāi)始干活了,思考過(guò)程非常清晰:先搞清楚用戶的意圖目的,并根據(jù)我的要求,拆解規(guī)劃了自己要完成的任務(wù):
圖片
非常與眾不同的是,GLM 4.5 給出了非常系統(tǒng)的項(xiàng)目設(shè)計(jì),逐項(xiàng)任務(wù)進(jìn)行拆解,進(jìn)而逐項(xiàng)實(shí)現(xiàn),沒(méi)想任務(wù)之間的劃分可以說(shuō)做到了相當(dāng)程度的解耦,完成一項(xiàng)之后,就在待辦事項(xiàng)中劃掉一項(xiàng)。
可以說(shuō),已經(jīng)非常 Agentic 了。
圖片
所以說(shuō),具備這種思路的大模型,目前小編是第一次看到,驚艷到了。
此處略去各種感嘆號(hào),直接讓大家看下最后的效果。

第二個(gè)實(shí)測(cè)的例子,更然小編折服了。最近小編一直想看《南京照相館》,題材很應(yīng)景,主演們:劉昊然、王傳君等也都是小編一直感冒的演員。只是一直沒(méi)有時(shí)間去看,所以干脆讓 GLM 4.5 幫我先看看影評(píng),做個(gè)解說(shuō)PPT介紹一下了。
圖片
結(jié)果等了十幾分鐘后,PPT的界面效果出來(lái)之后,小編的瞳孔開(kāi)始地震了。
設(shè)計(jì)感的確很給力,而且每個(gè)畫面的布局、圖文之間的混排,非常人性。
當(dāng)劉昊然那張 C 位照片的透明封面出來(lái)之后,小編心想:這 AI PPT 界真的要變天了。
圖片
原理上,GLM 4.5 調(diào)用了四個(gè)工具來(lái)完成 AI PPT 的任務(wù),Web Search、Slides Maker、WorkSpace、Image Search。
通過(guò)網(wǎng)頁(yè)代碼和圖像搜索結(jié)合的方式,可以說(shuō)是準(zhǔn)確度和設(shè)計(jì)感已經(jīng)超過(guò)小編本人的 PPT 水平了。
最后可以直接在 Chat 界面預(yù)覽,也可以導(dǎo)出 PDF 文件。給大家看看效果。

小編反正是徹底愛(ài)上了。雖然生成速度有些慢!
GLM 4.5 背后的技術(shù)公開(kāi)
這次,智譜也 open 了這一次升級(jí)背后的 Trick。
首先在架構(gòu)方面,更深的模型和更多的注意力頭可以帶來(lái)更佳的推理能力。
GLM-4.5 系列中,智譜團(tuán)隊(duì)在 MoE 層中使用了 無(wú)損負(fù)載均衡路由和 Sigmoid 門控機(jī)制。
智譜團(tuán)隊(duì)基于實(shí)驗(yàn)發(fā)現(xiàn),更深的模型具有更強(qiáng)的推理能力。
所以,與 DeepSeek-V3 和 Kimi K2 的策略不同,他們選擇減少模型寬度(即隱藏層維度與被路由專家數(shù)量),增加模型深度(即層數(shù))。
此外,在自注意力部分,GLM 4.5 還引入了 Grouped-Query Attention,并結(jié)合了 部分位置旋轉(zhuǎn)編碼(Partial RoPE)。同時(shí),團(tuán)隊(duì)還將注意力頭的數(shù)量提升到常規(guī)的 2.5 倍(即在 5120 的隱藏維度下使用 96 個(gè)頭)。
雖然直覺(jué)上注意力頭數(shù)量的提升并未降低訓(xùn)練損失(loss),但研究人員觀察到它顯著提升了模型在 MMLU、BBH 等推理類基準(zhǔn)測(cè)試中的表現(xiàn)。
優(yōu)化器方面,智譜團(tuán)隊(duì)采用了 Muon 優(yōu)化器,具有更快的收斂速度與更強(qiáng)的超大批次容忍能力。
另外,在 GLM-4.5 和 GLM-4.5-Air 中,我們都加入了 MTP(多 Token 預(yù)測(cè))層,以在推理階段支持推測(cè)式解碼。
其次,數(shù)據(jù)方面,GLM 4.5 采用了多階段訓(xùn)練的方法:
- 首先在 15 萬(wàn)億 token 的通用預(yù)訓(xùn)練語(yǔ)料上訓(xùn)練;
- 隨后追加訓(xùn)練 7 萬(wàn)億 token 的代碼與推理類語(yǔ)料;
- 在預(yù)訓(xùn)練之后,引入額外的任務(wù)增強(qiáng)階段,用以提升模型在關(guān)鍵下游任務(wù)中的表現(xiàn)。
官方博客中介紹,這些階段主要使用中等規(guī)模的領(lǐng)域?qū)S脭?shù)據(jù)集,包括指令調(diào)優(yōu)數(shù)據(jù)。
第三,強(qiáng)化學(xué)習(xí)階段,智譜還開(kāi)發(fā)了一套大模型強(qiáng)化學(xué)習(xí)框架:slime。目的是使RL訓(xùn)練階段具備出色的靈活性、效率與可擴(kuò)展性。
slime 的核心創(chuàng)新包括:
1、靈活的混合訓(xùn)練架構(gòu)。對(duì)于傳統(tǒng)推理類任務(wù)而言,可同時(shí)支持同步協(xié)同訓(xùn)練;對(duì)于智能體類任務(wù)優(yōu)化而言,可支持解耦異步訓(xùn)練模式。
值得注意的是,在異步模式下,訓(xùn)練與數(shù)據(jù)生成完全解耦,顯著提高 GPU 利用率,避免算力空轉(zhuǎn)。
2、智能體友好的解耦式設(shè)計(jì)。智能體訓(xùn)練常因環(huán)境交互延遲長(zhǎng)、分布不穩(wěn)定而拖慢訓(xùn)練。
slime 可將 rollout(環(huán)境交互)與訓(xùn)練邏輯徹底分離、并行處理,有效突破性能瓶頸。
3、 混合精度加速數(shù)據(jù)生成。使用高效的 FP8 格式 快速生成數(shù)據(jù),同時(shí)在訓(xùn)練主循環(huán)中保留 BF16 以確保穩(wěn)定性。這樣可以大幅提升生成速率,同時(shí)保障訓(xùn)練質(zhì)量。
通過(guò)這些設(shè)計(jì),slime 能無(wú)縫集成多種 agent 框架、支持多樣任務(wù),并高效管理長(zhǎng)時(shí)間跨度的訓(xùn)練流程。
智譜GLM4.5是如何做到統(tǒng)一多項(xiàng)能力的?
重點(diǎn)技巧來(lái)了,正如上文所說(shuō), GLM-4.5 這款面模型追求的是讓一款模型同時(shí)具備優(yōu)秀的推理、編程、通用工具調(diào)用的能力,智譜在開(kāi)源模型的同時(shí),把這項(xiàng)核心技術(shù)也第一時(shí)間公開(kāi)了。
據(jù)悉,GLM 4.5 整合了下面幾項(xiàng)能力:
- 來(lái)自 GLM-4-0414 的通用能力
- 來(lái)自 GLM-Z1 的推理能力
- 進(jìn)一步強(qiáng)化了智能體能力,包括:
智能體編程(Agentic Coding)
深度搜索(Deep Search)
通用工具調(diào)用能力(General Tool-Using)
而這個(gè)整合階段則發(fā)生在 RL 階段。他們把流程也公開(kāi)了:
第一步:有監(jiān)督微調(diào)。基于精選的推理數(shù)據(jù)與合成的智能體場(chǎng)景,進(jìn)行微調(diào)。
第二步:專用 RL 訓(xùn)練階段。
- 對(duì)于推理任務(wù),使用64K 長(zhǎng)上下文輸入,結(jié)合 難度分級(jí)課程表(curriculum),效果優(yōu)于傳統(tǒng)逐步調(diào)度。
動(dòng)態(tài)溫度采樣,兼顧探索與收斂
自適應(yīng)梯度裁剪,用于 STEM 類問(wèn)題的策略穩(wěn)定更新
并引入兩項(xiàng)改進(jìn)技術(shù):
- 對(duì)于智能體任務(wù),研究人員專注于兩個(gè)可驗(yàn)證任務(wù):
其一是開(kāi)發(fā)可擴(kuò)展的 QA 生成策略,其二是編程任務(wù)則通過(guò)真實(shí)代碼執(zhí)行反饋驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)更新。其中專供的典型場(chǎng)景包括:
基于人類參與抽取網(wǎng)頁(yè)內(nèi)容
結(jié)合內(nèi)容遮蔽技術(shù)合成搜索類問(wèn)答
信息檢索型問(wèn)答(QA)
軟件工程任務(wù)(SWE)
此外,GLM 4.5 團(tuán)隊(duì)指出,盡管 RL 階段針對(duì)的是有限任務(wù),但其帶來(lái)的提升可以遷移到通用能力,如 tool-use。
最后,通過(guò)專家蒸餾,就可以把這些專業(yè)能力集成進(jìn)主模型,賦予 GLM-4.5 全面的智能體能力。
寫在最后
在短短幾周內(nèi),最佳開(kāi)源模型的桂冠頻繁上新,先是 Kimi-K2 ,然后是 Qwen3,而今天,GLM 4.5 繼續(xù)刷新榜單,拿下 Agentic 時(shí)代的 開(kāi)源 SOTA!
智譜,總在每一波大的大模型發(fā)展節(jié)奏中,找到自己的發(fā)展路徑。這一次 Agentic 時(shí)代,再一次用獨(dú)有的實(shí)力證明:OpenAI 不是唯一正確,做通用的 AGI,智譜團(tuán)隊(duì)有著非常自信的發(fā)展路徑,比如這次 AI PPT 的功能,就與其他產(chǎn)品的路線非常不同;再比如 MoE 架構(gòu)方面的優(yōu)化,新的強(qiáng)化學(xué)習(xí)階段的統(tǒng)一多項(xiàng)專有能力的過(guò)程,也是非常厲害的。
好了,大家也可以去試試了,重申:模型是開(kāi)源免費(fèi)的,但API是要錢的。
嘗鮮地址:??https://chat.z.ai/??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭

















