不再靠「猜坐標」！顏水成團隊等聯合發布PaDT多模態大模型：實現真正的多模態表征輸出

2025-10-16 18:07:47

新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊，攜同華南理工大學、新加坡科技研究局（A*STAR）I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊，提出了一種全新的統一范式 —— Patch-as-Decodable Token（PaDT）。

近年來，多模態大語言模型（Multimodal Large Language Models, MLLMs）在圖文理解、視覺問答等任務上取得了令人矚目的進展。然而，當面對需要精細空間感知的任務 —— 比如目標檢測、實例分割或指代表達理解時，現有模型卻常常「力不從心」。其根本原因在于：當前主流 MLLMs 仍依賴將視覺目標「翻譯」成文本坐標（如 [x1, y1, x2, y2] ）的方式進行輸出。

這種方式不僅存在格式混亂、解析困難，還容易因數字被拆分成多個獨立文本 token（如 489 -> 4, 8, 9），導致語義丟失、圖文脫節，從而出現重復生成甚至「幻覺」現象。

針對這一核心瓶頸，新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊，攜同華南理工大學、新加坡科技研究局（A*STAR）I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊，提出了一種全新的統一范式 —— Patch-as-Decodable Token（PaDT）。

PaDT 的核心思想很簡單但顛覆性：

把圖像劃分成多個視覺小塊（patch），并讓模型可以直接生成這些小塊對應的視覺令牌（Visual Reference Tokens, VRTs）。
在 MLLMs 的輸入和輸出端中，實現文本令牌與視覺令牌的無縫交替出現，讓模型「說」圖像內容就像「說」文字一樣自然。
從而使模型不再「猜坐標」，而能在生成句子中直接指出圖像目標。

憑借這一設計，PaDT 在檢測、分割、指代表達等任務上全面刷新 SOTA，甚至以僅 3B 參數的小模型超越了 78B 的 InternVL3！

論文鏈接：https://huggingface.co/papers/2510.01954
代碼地址：https://github.com/Gorilla-Lab-SCUT/PaDT
模型權重：https://huggingface.co/PaDT-MLLM
PaperScope 解讀：https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想：從「說坐標」到「指圖像」

傳統 MLLMs（如 Qwen2.5-VL、InternVL3）在處理視覺任務時，通常將檢測框的坐標以字符串形式輸出。例如，模型可能會生成「 [489, 120, 600, 300] 」。然而，這種做法存在三大痛點：

格式不一致：同一 Prompt 作為輸入，不同樣本可能生成絕對坐標、歸一化坐標、甚至非結構化文本格式，極大地增加目標解析難度；
語義斷裂：數字「489」會被拆成「4」「8」「9」三個獨立 token，破壞了空間連續性；
圖文關聯弱：坐標數字 token 本身不含語義，難以與圖像內容建立深層關聯，從而容易導致重復或幻覺生成。

圖 1：(a) 傳統方法輸出格式混亂；(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標 token 與圖像區域關聯弱；(c) PaDT 的 VRTs 與目標區域高度對齊；(d) 單個 VRT 的熱力圖顯示其預測具有空間連續性。

PaDT 的突破在于：不再讓模型「描述」位置，而是讓它「指向」圖像中的具體區域。

具體而言，PaDT 引入了 Visual Reference Tokens（VRTs）—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中，模型會動態地將當前圖像的 patch 特征擴展進文本詞表，形成一個「圖文一體」的動態嵌入表。這樣，模型在生成過程中，既可以輸出文字（如類別名），也可以插入 VRT（如<VRT_227>），后者直接對應圖像中的某個局部區域。

圖 2：PaDT 實現了文本 token 與視覺 patch token 的統一預測，使 MLLM 能同時輸出語義描述與空間定位。

這種設計巧妙地避開了傳統方法依賴全局視覺碼本（如 ClawMachine）的缺陷 —— 后者容易混淆相似物體，且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs 僅來自當前圖像，天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓練：讓 VRTs 真正「生效」

僅有 VRTs 還不夠，如何將其轉化為具體的檢測框或分割掩碼？PaDT 設計了一個輕量級的 PaDT Decoder，僅由三個雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態，通過注入任務特定的可學習 token（如 box token、mask token 和 score token），即可統一解碼出 bounding box、segmentation mask 和置信度分數。

更關鍵的是，PaDT 提出了一套魯棒的訓練策略。傳統方法往往要求模型預測目標區域內的所有前景 patch，但這會導致訓練偏差和過擬合。PaDT 則在每次訓練時隨機采樣少量（如 5 個）前景 VRTs 作為監督信號，并通過一種掩碼交叉熵損失，動態屏蔽未選中的 VRT logits，從而鼓勵模型探索多樣化的有效視覺參考。

這種「少而精」的監督方式，不僅提升了模型泛化能力，還顯著降低了推理時的 token 消耗 —— 每個目標僅需 5 個 VRTs，遠少于逐字符生成坐標的開銷。

圖 3：PaDT 整體框架。圖像 patch 特征經動態嵌入模塊擴展為 VRTs，與文本 token 一同輸入 LLM；輸出序列中的 VRTs 被輕量解碼器轉換為結構化視覺結果。

性能炸裂：3B 模型干翻 78B 巨無霸

PaDT 的實驗結果堪稱驚艷。在 RefCOCO/+/g 的指代表達理解（REC）任務上，PaDT Pro（3B）以 93.6 的平均準確率，超越了參數量高達 78B 的 InternVL3（91.4）。而在指代表達分割（RES）任務中，PaDT 同樣大幅領先，即便對比使用 SAM 等強大分割基礎模型的方法（如 Text4Seg+SAM），依然保持優勢。

更令人震撼的是在 COCO 開放詞匯檢測任務上的表現。傳統 MLLMs 在此任務上 mAP 普遍低于 20，而 PaDT Pro（3B）一舉將 mAP 推高至 38.2，幾乎翻倍！ 7B 版本更是達到 39.0 mAP，展現出極強的可擴展性。

圖 4：PaDT 在 RefCOCO/+/g 的指代表達理解（REC）任務結果。PaDT Pro (3B) 以 93.6 的平均準確率，超越了參數量高達 78B 的 InternVL3（91.4）。

圖 5：PaDT 在 RefCOCO/+/g 的指代表達分割（RES）任務結果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強大分割基礎模型的方法。

圖 6：PaDT 在 COCO 開放詞匯檢測上的結果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外，團隊還構建了一個新的 Referring Image Captioning（RIC）數據集，要求模型在生成描述時顯式關聯對象 ID。PaDT 在此任務上同樣大幅領先，CIDEr-D 分數從基線的 0.386 提升至 1.450，同時檢測指標（GreedyPrecision 達 82.3%）也證明其生成的 caption 具備極強的視覺 grounding 能力。

圖 7：Referring Image Captioning (RIC) 數據集。

為什么 PaDT 如此有效？

PaDT 的成功，源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內「擬合」視覺信息，而是將視覺 patch 本身作為可生成的 token，實現了模態間的原生對齊。

首先，動態嵌入機制確保了 VRTs 與當前圖像的強綁定，避免了跨圖像混淆；其次，統一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息，簡化了訓練；最后，輕量解碼器將復雜的 dense prediction 任務從 LLM 中解耦，既保留了 LLM 的語義推理能力，又賦予了其精準的空間輸出能力。

值得一提的是，PaDT 還展現出強大的多任務泛化能力。通過聯合訓練 REC、RES、OVD 和 RIC 任務得到的 PaDT Pro 模型，僅通過切換 prompt 即可無縫切換任務，且性能普遍優于單任務模型，證明了該范式的通用性。

結語：邁向真正的通用多模態智能

PaDT 的提出，標志著 MLLMs 在細粒度視覺理解上邁出了關鍵一步。它不再滿足于「看圖說話」，而是能夠「指圖說話」—— 精準地指出圖像中的每一個相關區域，并生成對應的結構化輸出。

這項工作不僅在技術上實現了突破，更在理念上啟發我們：未來的通用人工智能，或許不應強行將一切信息壓縮到文本空間，而應允許不同模態以其最自然的形式共存與交互。

目前，PaDT 的代碼和 checkpoints（模型權重）已開源。對于關注多模態、計算機視覺與大模型融合的研究者和工程師而言，這無疑是一個值得關注和嘗試的新范式。

作者信息

蘇永怡（第一作者）

華南理工大學博四研究生，A*STAR I2R 訪問學者，主要研究多模態大語言模型、基礎視覺模型、測試時領域適應課題。

作者個人主頁：https://yysu.site/

張浩杰（共同一作）

華南理工大學三年級研究生，微信視覺團隊實習生。主要研究多模態大模型、視頻生成模型、基礎視覺模型。

作者個人主頁：https://zhang-haojie.github.io/

責任編輯：張燕妮來源：機器之心

AI 模型訓練