不再靠「猜坐標」!顏水成團隊等聯合發布PaDT多模態大模型:實現真正的多模態表征輸出
近年來,多模態大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務上取得了令人矚目的進展。然而,當面對需要精細空間感知的任務 —— 比如目標檢測、實例分割或指代表達理解時,現有模型卻常常「力不從心」。其根本原因在于:當前主流 MLLMs 仍依賴將視覺目標「翻譯」成文本坐標(如 [x1, y1, x2, y2] )的方式進行輸出。
這種方式不僅存在格式混亂、解析困難,還容易因數字被拆分成多個獨立文本 token(如 489 -> 4, 8, 9),導致語義丟失、圖文脫節,從而出現重復生成甚至「幻覺」現象。
針對這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊,攜同華南理工大學、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊,提出了一種全新的統一范式 —— Patch-as-Decodable Token(PaDT)。
PaDT 的核心思想很簡單但顛覆性:
- 把圖像劃分成多個視覺小塊(patch),并讓模型可以直接生成這些小塊對應的視覺令牌(Visual Reference Tokens, VRTs)。
- 在 MLLMs 的輸入和輸出端中,實現文本令牌與視覺令牌的無縫交替出現,讓模型「說」圖像內容就像「說」文字一樣自然。
- 從而使模型不再「猜坐標」,而能在生成句子中直接指出圖像目標。
憑借這一設計,PaDT 在檢測、分割、指代表達等任務上全面刷新 SOTA,甚至以僅 3B 參數的小模型超越了 78B 的 InternVL3!

- 論文鏈接:https://huggingface.co/papers/2510.01954
- 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
- 模型權重:https://huggingface.co/PaDT-MLLM
- PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954
PaDT 的核心思想:從「說坐標」到「指圖像」
傳統 MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務時,通常將檢測框的坐標以字符串形式輸出。例如,模型可能會生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點:
- 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對坐標、歸一化坐標、甚至非結構化文本格式,極大地增加目標解析難度;
- 語義斷裂:數字「489」會被拆成「4」「8」「9」三個獨立 token,破壞了空間連續性;
- 圖文關聯弱:坐標數字 token 本身不含語義,難以與圖像內容建立深層關聯,從而容易導致重復或幻覺生成。

圖 1:(a) 傳統方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標 token 與圖像區域關聯弱;(c) PaDT 的 VRTs 與目標區域高度對齊;(d) 單個 VRT 的熱力圖顯示其預測具有空間連續性。
PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區域。
具體而言,PaDT 引入了 Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會動態地將當前圖像的 patch 特征擴展進文本詞表,形成一個「圖文一體」的動態嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如<VRT_227>),后者直接對應圖像中的某個局部區域。

圖 2:PaDT 實現了文本 token 與視覺 patch token 的統一預測,使 MLLM 能同時輸出語義描述與空間定位。
這種設計巧妙地避開了傳統方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs 僅來自當前圖像,天然具備唯一性和空間一致性。
輕量解碼器 + 魯棒訓練:讓 VRTs 真正「生效」
僅有 VRTs 還不夠,如何將其轉化為具體的檢測框或分割掩碼?PaDT 設計了一個輕量級的 PaDT Decoder,僅由三個雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態,通過注入任務特定的可學習 token(如 box token、mask token 和 score token),即可統一解碼出 bounding box、segmentation mask 和置信度分數。
更關鍵的是,PaDT 提出了一套魯棒的訓練策略。傳統方法往往要求模型預測目標區域內的所有前景 patch,但這會導致訓練偏差和過擬合。PaDT 則在每次訓練時隨機采樣少量(如 5 個)前景 VRTs 作為監督信號,并通過一種掩碼交叉熵損失,動態屏蔽未選中的 VRT logits,從而鼓勵模型探索多樣化的有效視覺參考。
這種「少而精」的監督方式,不僅提升了模型泛化能力,還顯著降低了推理時的 token 消耗 —— 每個目標僅需 5 個 VRTs,遠少于逐字符生成坐標的開銷。

圖 3:PaDT 整體框架。圖像 patch 特征經動態嵌入模塊擴展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉換為結構化視覺結果。
性能炸裂:3B 模型干翻 78B 巨無霸
PaDT 的實驗結果堪稱驚艷。在 RefCOCO/+/g 的指代表達理解(REC)任務上,PaDT Pro(3B)以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。而在指代表達分割(RES)任務中,PaDT 同樣大幅領先,即便對比使用 SAM 等強大分割基礎模型的方法(如 Text4Seg+SAM),依然保持優勢。
更令人震撼的是在 COCO 開放詞匯檢測任務上的表現。傳統 MLLMs 在此任務上 mAP 普遍低于 20,而 PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達到 39.0 mAP,展現出極強的可擴展性。

圖 4:PaDT 在 RefCOCO/+/g 的指代表達理解(REC)任務結果。PaDT Pro (3B) 以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。

圖 5:PaDT 在 RefCOCO/+/g 的指代表達分割(RES)任務結果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強大分割基礎模型的方法。

圖 6:PaDT 在 COCO 開放詞匯檢測上的結果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。
此外,團隊還構建了一個新的 Referring Image Captioning(RIC) 數據集,要求模型在生成描述時顯式關聯對象 ID。PaDT 在此任務上同樣大幅領先,CIDEr-D 分數從基線的 0.386 提升至 1.450,同時檢測指標(GreedyPrecision 達 82.3%)也證明其生成的 caption 具備極強的視覺 grounding 能力。

圖 7:Referring Image Captioning (RIC) 數據集。
為什么 PaDT 如此有效?
PaDT 的成功,源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實現了模態間的原生對齊。
首先,動態嵌入機制確保了 VRTs 與當前圖像的強綁定,避免了跨圖像混淆;其次,統一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡化了訓練;最后,輕量解碼器將復雜的 dense prediction 任務從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準的空間輸出能力。
值得一提的是,PaDT 還展現出強大的多任務泛化能力。通過聯合訓練 REC、RES、OVD 和 RIC 任務得到的 PaDT Pro 模型,僅通過切換 prompt 即可無縫切換任務,且性能普遍優于單任務模型,證明了該范式的通用性。
結語:邁向真正的通用多模態智能
PaDT 的提出,標志著 MLLMs 在細粒度視覺理解上邁出了關鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準地指出圖像中的每一個相關區域,并生成對應的結構化輸出。
這項工作不僅在技術上實現了突破,更在理念上啟發我們:未來的通用人工智能,或許不應強行將一切信息壓縮到文本空間,而應允許不同模態以其最自然的形式共存與交互。
目前,PaDT 的代碼和 checkpoints(模型權重)已開源。對于關注多模態、計算機視覺與大模型融合的研究者和工程師而言,這無疑是一個值得關注和嘗試的新范式。
作者信息
蘇永怡 (第一作者)

華南理工大學博四研究生,A*STAR I2R 訪問學者,主要研究多模態大語言模型、基礎視覺模型、測試時領域適應課題。
- 作者個人主頁:https://yysu.site/
張浩杰 (共同一作)

華南理工大學三年級研究生,微信視覺團隊實習生。主要研究多模態大模型、視頻生成模型、基礎視覺模型。
- 作者個人主頁:https://zhang-haojie.github.io/




































