GLM-4.5V多模態核心架構設計和訓練數據構建速覽 原創
快速看一下GLM-4.1V多模態方面架構和數據方面的特點。
模型架構-核心特點
1、視覺編碼器特點

- 初始化模型:AIMv2-Huge作為視覺編碼器的基礎。
- 3D卷積適配:為提升視頻處理效率,參考Qwen2-VL的設計,將原始2D卷積替換為3D卷積。這一改動使視頻輸入的時間維度下采樣2倍,減少計算量;對于單張圖像,通過復制圖像幀保持處理一致性。
- 動態分辨率支持:
a.引入2D-RoPE到ViT的自注意力層,使模型能夠處理極端寬高比(超過200:1)或高分辨率(4K以上)的圖像。
b.保留預訓練ViT的可學習絕對位置嵌入,并通過雙三次插值動態適配不同分辨率輸入。具體來說,對于輸入圖像的每個patch,其坐標會被歸一化到[-1,1]范圍,再通過插值生成適配當前分辨率的位置嵌入,公式如下:其中,為補丁的整數坐標,和為patch網格的寬和高,為原始位置嵌入表,為雙三次插值函數。
2、語言模型解碼器特點
- 3D-RoPE擴展:為增強語言模型對空間信息的理解,將RoPE擴展到3D維度,在保留文本處理能力的同時,提升多模態場景下的空間推理能力。
- 視頻時間建模:對于視頻輸入,在每個幀token后插入時間索引token(time index token),通過編碼幀的時間戳(如字符串形式)明確告知模型幀間的時間距離,強化 temporal 理解與 grounding 能力。
訓練數據與處理特點
1、圖像描述數據
包含超過100億對圖像-文本對,來自LAION、DataComp、DFN、Wukong等公開數據集及網頁搜索引擎。
處理過程:
- 啟發式過濾:基于圖像分辨率、純色檢測、字幕長度限制和圖像去重等規則,剔除低質量樣本。
- 相關性過濾:使用預訓練的CLIP模型計算圖像-文本相似度,保留分數≥0.3的樣本,確保模態語義一致性。
- 概念平衡重采樣:參考MetaCLIP策略,基于視覺概念和專有名詞的詞匯表重新加權數據,緩解web數據中的長尾分布問題,增強概念覆蓋度。
- 事實導向的重描述:迭代訓練一個事實導向的重描述模型,對原始字幕進行去噪和豐富化,生成更精確、詳細的描述,同時保留原始文本的事實準確性。
2、交錯的圖像-文本數據
來自網頁和書籍等,包含圖像與文本的復雜邏輯關系和領域知識,但噪聲大(如模態錯位、信息密度低)。
- 處理 pipeline:
- 網頁數據處理:MINT、MMC4、OmniCorpus等大規模開源數據集。通過CLIP分數過濾語義無關的圖像;移除廣告、二維碼等噪聲元素;排除圖像密集但文本稀疏的樣本(如在線相冊)。增強:訓練“高知識密度”圖像分類器,優先保留學術圖表、科學插圖、工程 schematic、教學 diagrams 和地圖等信息價值高的內容。
- 學術書籍處理:收集超過1億本數字化書籍,篩選出STEM(科學、技術、工程、數學)領域的相關書籍。使用PDF解析工具深度提取高質量的 interleaved 圖文內容。
3、OCR數據
- 合成文檔圖像:將語言預訓練語料的文本用不同字體、大小、顏色和方向渲染,疊加到LAION數據集的圖像背景上,模擬實際應用場景。
- 自然場景文本圖像:使用Paddle-OCR工具處理海量自然圖像,提取文本及 bounding box,保留至少包含一個有效OCR檢測的樣本。
- 學術文檔:參考Nougat方法,從arXiv獲取論文,將LaTeX源碼轉換為HTML后解析為輕量標記語言,按原PDF分頁光柵化,生成高質量的PDF渲染與結構化標記配對數據。
4、視覺定位數據
- 自然圖像定位:以LAION-115M為基礎,使用GLIPv2模型解析圖像字幕,自動預測每個名詞短語的 bounding box。篩選至少包含兩個有效 bounding box 的樣本,最終得到4000萬條高質量標注。
- GUI定位:從CommonCrawl快照提取URL,通過自動化工具捕獲網頁截圖,并使用Playwright框架與網頁深度交互,解析所有可見DOM元素及其在頁面上的精確 bounding box。生成1.4億條針對GUI的指代表達生成與理解任務的問答對,增強模型在GUI環境中的交互和理解能力。
5、視頻數據
來源學術、網頁和專有來源的多樣化視頻 corpus。通過細粒度人工標注解決標準字幕中的幻覺和遺漏問題,準確捕獲復雜動作和場景文本。采用人機協作流程標注關鍵電影元素(如相機運動、鏡頭構圖),編碼更深層的視覺敘事。移除損壞或無效文件。通過視頻和文本嵌入的相似度過濾語義冗余樣本,確保訓練語料的純凈性。
6、指令微調數據
- 任務覆蓋與分類:設計細粒度分類體系,按語義結構和任務目標組織提示詞,實現類別特異性預處理和平衡采樣。
- 復雜場景增強:針對開源數據集的缺口(如GUI交互、長文檔理解),整合帶嚴格結構約束的合成數據,擴展數據多樣性和復雜度。
- 數據污染檢查:通過人工和自動化審查,防止公開評估基準的數據泄露。
- 數據集規模:5000萬樣本,涵蓋通用視覺感知、多模態推理(如STEM問題解決)、文檔密集場景、GUI代理操作和UI編碼等,為全場景強化學習提供全面支持。
GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning,https://arxiv.org/pdf/2507.01006v4
本文轉載自???大模型自然語言處理??? 作者:llmnlp
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















