智譜AI開源GLM-4.5V:多模態(tài)推理能力全面升級,64K上下文解析長文檔 原創(chuàng)
在AI界,視覺與語言的融合一直被視為邁向通用人工智能的重要一步。最近智譜AI正式開源了最新一代多模態(tài)模型——GLM-4.5V,并將其MIT協(xié)議開放給全球開發(fā)者。 這不僅是一次性能升級,更是一次能力版圖的拓展,讓多模態(tài)AI真正走向可落地、可規(guī)模化的應(yīng)用階段。
全能的視覺推理能力
GLM-4.5V的核心,是在復(fù)雜視覺場景中做出精準(zhǔn)、上下文關(guān)聯(lián)的理解。
- 圖像推理:能同時分析多張圖片,理解其中的空間布局和元素關(guān)系,例如識別工業(yè)產(chǎn)品瑕疵、根據(jù)地理特征推斷位置,甚至跨圖像進(jìn)行情境推理。
- 視頻理解:內(nèi)置3D卷積視覺編碼器,可處理長視頻,自動分段、識別細(xì)微事件,適用于影視分鏡、體育分析、安防回放等場景。
- 空間推理:創(chuàng)新引入3D-RoPE(旋轉(zhuǎn)位置編碼),提升三維空間感知能力,對AR/VR、機(jī)器人視覺等尤為關(guān)鍵。

從GUI到RPA:多模態(tài)Agent的新玩法
GLM-4.5V不僅看得懂圖片和視頻,還能“看懂”屏幕。
- 界面閱讀與圖標(biāo)識別:識別桌面或應(yīng)用界面元素,精確定位按鈕、菜單、圖標(biāo),為RPA自動化和無障礙輔助提供技術(shù)基礎(chǔ)。
- 桌面操作規(guī)劃:基于視覺理解生成操作步驟,幫用戶完成復(fù)雜的軟件導(dǎo)航和批量任務(wù)。
這意味著,未來數(shù)字助理不僅能“聽你說”,還可以“看你做”,并主動接手你的操作。
復(fù)雜圖表與長文檔解析
信息密集型行業(yè)(如金融、科研、法律)一直是多模態(tài)AI落地的難點,而GLM-4.5V在這方面的突破尤為顯著。
- 圖表解析:可從PDF、PPT中的復(fù)雜圖表中提取結(jié)論與結(jié)構(gòu)化數(shù)據(jù),即便信息密度極高也能高效分析。
- 長文檔理解:支持64K多模態(tài)上下文,一次性解析帶有大量圖片的長文檔,生成摘要或結(jié)構(gòu)化輸出,非常適合商業(yè)情報、合規(guī)審查等任務(wù)。
精準(zhǔn)定位與視覺錨定
不同于傳統(tǒng)依賴像素匹配的檢測,GLM-4.5V結(jié)合世界知識與語義理解,能更準(zhǔn)確地在圖像中定位目標(biāo)。 這為質(zhì)量檢測、增強(qiáng)現(xiàn)實、零售視覺分析等領(lǐng)域帶來了高精度的自動化能力。
高效架構(gòu)與推理模式切換
在技術(shù)底層,GLM-4.5V采用混合專家(MoE)架構(gòu),總參數(shù)量高達(dá)1060億,但推理時只激活120億,兼顧精度與推理成本。 此外,還引入了推理模式切換(Thinking Mode):
- ON模式:深度逐步推理,適合邏輯復(fù)雜、鏈路長的任務(wù);
- OFF模式:快速直達(dá)答案,用于簡單問答或信息檢索。
這種“可調(diào)推理深度”的設(shè)計,賦予了用戶在速度與嚴(yán)謹(jǐn)性之間的自主選擇權(quán)。
實測表現(xiàn)與落地案例
- 性能成績單:在41-42個公開多模態(tài)基準(zhǔn)測試(如MMBench、AI2D、MathVista等)上,GLM-4.5V均取得SOTA表現(xiàn),部分項目甚至超越部分商用閉源模型。
- 真實應(yīng)用:從制造業(yè)的缺陷檢測、到金融報告自動分析,再到無障礙閱讀工具,企業(yè)與研究機(jī)構(gòu)已經(jīng)在多領(lǐng)域驗證了其可行性與商業(yè)價值。

為什么這次開源意義重大?
過去,具備如此多模態(tài)推理能力的模型,大多被鎖在商業(yè)API背后。智譜AI選擇用MIT協(xié)議開放源碼,意味著全球開發(fā)者和企業(yè)可以零門檻接入、部署和定制這一能力。 這不僅降低了技術(shù)門檻,也可能在未來催生出新一波多模態(tài)AI的創(chuàng)新應(yīng)用。
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















