106B參數直接封神!智譜GLM-4.5V開源即巔峰,42項SOTA碾壓全場,多模態一鍵秒殺
隨著AI任務的復雜性不斷增加,VLM需要具備更強的推理能力,以實現復雜問題的解決、長文本理解以及多模態交互。最近,智譜推出了GLM-4.5V。

一、項目概述
GLM-4.5V是智譜推出的最新一代視覺推理模型,基于106B參數規模構建,擁有12B激活能力,是目前領先的視覺語言模型(VLM)。它繼承了GLM-4.1V-Thinking的優秀架構,并結合新一代文本基座模型GLM-4.5-Air進行訓練,具備卓越的視覺理解、推理能力以及多模態交互功能,廣泛適用于網頁前端復刻、視覺問答、圖尋游戲、視頻理解等多種場景。
二、核心功能
(一)視覺理解與推理
GLM-4.5V能夠理解和分析圖像、視頻等視覺內容,進行復雜的視覺推理任務,例如識別物體、場景、人物關系等。它在視覺定位、空間推理、長文檔OCR及圖表解析等任務中表現出色,能夠處理復雜的視覺場景和多模態數據。
(二)多模態交互
該模型支持文本與視覺內容的融合處理,能夠根據文本描述生成圖像,或者根據圖像生成文本描述。這種多模態交互能力使其在教育、智能客服、娛樂等領域具有廣泛的應用前景。
(三)網頁前端復刻
GLM-4.5V可以根據網頁設計圖生成前端代碼,實現快速的網頁開發。這一功能極大地提高了開發效率,降低了開發成本,適用于需要快速迭代的網頁項目。
(四)圖尋游戲
模型支持基于圖像的搜索和匹配任務,能夠在復雜場景中快速找到特定目標。這一功能不僅適用于娛樂游戲開發,還可以應用于安防監控、智能零售等領域。
(五)視頻理解
GLM-4.5V能夠分析視頻內容,提取關鍵信息,生成視頻摘要或檢測事件。這一功能對于視頻推薦、視頻編輯以及視頻監控等場景具有重要意義。
(六)跨模態生成
模型支持從視覺內容生成文本,或者從文本生成視覺內容,實現多模態內容的無縫轉換。這一功能為內容創作、智能寫作等領域提供了新的可能性。
三、技術原理
(一)大規模預訓練
GLM-4.5V基于106B參數的預訓練架構,使用海量的文本和視覺數據進行訓練,學習語言和視覺的聯合表示。這種大規模預訓練方法使得模型能夠理解和生成復雜的多模態內容。
(二)視覺語言融合
模型采用Transformer架構,將文本和視覺特征進行融合,基于交叉注意力機制實現文本與視覺信息的交互。這種融合方式使得模型能夠更好地理解多模態輸入,并生成準確的輸出。
(三)激活機制
GLM-4.5V設計了12B激活參數,在推理過程中動態激活相關的參數子集,提高計算效率和推理性能。這一機制使得模型在處理大規模數據時能夠保持高效的運行。
(四)結構繼承與優化
模型繼承了GLM-4.1V-Thinking的優秀結構,并結合新一代文本基座模型GLM-4.5-Air進行訓練,進一步提升了性能。這種繼承與優化策略使得模型在保持穩定性的基礎上,實現了性能的顯著提升。
(五)多模態任務適配
通過微調和優化,GLM-4.5V能夠適應多種多模態任務,例如視覺問答、圖像描述生成、視頻理解等。這種適配能力使得模型在不同應用場景中都能發揮出色的表現。
四、應用場景
(一)網頁前端復刻
開發者可以上傳網頁設計圖,GLM-4.5V將自動生成前端代碼,實現快速的網頁開發。這一功能極大地提高了開發效率,降低了開發成本。
(二)視覺問答
用戶可以上傳圖像并提問,GLM-4.5V將根據圖像內容生成準確答案。這一功能可應用于教育、智能客服等領域,為用戶提供更智能的交互體驗。
(三)圖尋游戲
在復雜場景中快速找到目標圖像,適用于安防監控、智能零售及娛樂游戲開發。這一功能能夠幫助開發者實現更高效的目標檢測和匹配。
(四)視頻理解
分析視頻內容,提取關鍵信息生成摘要或檢測事件,優化視頻推薦、編輯及監控。這一功能為視頻內容的處理和分析提供了強大的支持。
五、性能表現
GLM-4.5V在多個基準測試中表現出色,以下是其主要性能指標:

這些性能指標表明,GLM-4.5V在視覺推理、多模態交互、視頻理解等任務中均處于行業領先水平,能夠滿足多種復雜應用場景的需求。
六、快速使用
(一)環境安裝
1. 安裝依賴
對于`SGLang`和`transformers`:
clone git https://github.com/zai-org/GLM-V.git
cd GLM-V
pip install -r requirements.txt對于`vLLM`:
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview(二)模型部署
1. 使用`transformers`后端
CLI工具:
python trans_infer_cli.pyGradio Web界面:
python trans_infer_gradio.py2. 使用`vLLM`服務
vllm serve zai-org/GLM-4.5V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.5v \
--allowed-local-media-path / \
--media-io-kwargs '{"video": {"num_frames": -1}}'3. 使用`SGLang`服務
python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.5v \
--port 8000 \
--host 0.0.0.0(三)使用桌面助手應用
智譜開源了一款桌面助手應用,支持實時截屏、錄屏,并借助GLM-4.5V模型處理代碼輔助、視頻分析、游戲解答、文檔解讀等多種視覺任務。開發者可以下載安裝包或從源代碼構建應用:
[桌面助手應用下載地址](https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App)

七、結語
GLM-4.5V作為智譜推出的最新一代視覺推理模型,憑借其卓越的視覺理解與推理能力、強大的多模態交互功能以及高效的性能表現,為多模態應用的發展提供了強大的技術支持。無論是網頁前端開發、視覺問答、視頻理解還是圖尋游戲,GLM-4.5V都能滿足開發者在多種復雜場景下的需求。我們期待看到更多基于GLM-4.5V的創新應用誕生,推動人工智能技術的進一步發展。
項目地址
GitHub倉庫:??https://github.com/zai-org/GLM-V??
技術論文:??https://github.com/zai-org/GLM-V/tree/main/resources/GLM-4.5V_technical_report.pdf??
桌面助手應用:???https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App??
本文轉載自?????????小兵的AI視界?????????,作者:AGI小兵

















