精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不再靠「猜坐標」!顏水成團隊等聯合發布PaDT多模態大模型:實現真正的多模態表征輸出

人工智能 新聞
新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊,攜同華南理工大學、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊,提出了一種全新的統一范式 —— Patch-as-Decodable Token(PaDT)。

近年來,多模態大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務上取得了令人矚目的進展。然而,當面對需要精細空間感知的任務 —— 比如目標檢測、實例分割或指代表達理解時,現有模型卻常常「力不從心」。其根本原因在于:當前主流 MLLMs 仍依賴將視覺目標「翻譯」成文本坐標(如 [x1, y1, x2, y2] )的方式進行輸出。

這種方式不僅存在格式混亂、解析困難,還容易因數字被拆分成多個獨立文本 token(如 489 -> 4, 8, 9),導致語義丟失、圖文脫節,從而出現重復生成甚至「幻覺」現象。

針對這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊,攜同華南理工大學、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊,提出了一種全新的統一范式 —— Patch-as-Decodable Token(PaDT)。

PaDT 的核心思想很簡單但顛覆性:

  1. 把圖像劃分成多個視覺小塊(patch),并讓模型可以直接生成這些小塊對應的視覺令牌(Visual Reference Tokens, VRTs)。
  2. 在 MLLMs 的輸入和輸出端中,實現文本令牌與視覺令牌的無縫交替出現,讓模型「說」圖像內容就像「說」文字一樣自然。
  3. 從而使模型不再「猜坐標」,而能在生成句子中直接指出圖像目標。

憑借這一設計,PaDT 在檢測、分割、指代表達等任務上全面刷新 SOTA,甚至以僅 3B 參數的小模型超越了 78B 的 InternVL3!

  • 論文鏈接:https://huggingface.co/papers/2510.01954
  • 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
  • 模型權重:https://huggingface.co/PaDT-MLLM
  • PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想:從「說坐標」到「指圖像」

傳統 MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務時,通常將檢測框的坐標以字符串形式輸出。例如,模型可能會生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點:

  1. 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對坐標、歸一化坐標、甚至非結構化文本格式,極大地增加目標解析難度;
  2. 語義斷裂:數字「489」會被拆成「4」「8」「9」三個獨立 token,破壞了空間連續性;
  3. 圖文關聯弱:坐標數字 token 本身不含語義,難以與圖像內容建立深層關聯,從而容易導致重復或幻覺生成。

圖 1:(a) 傳統方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標 token 與圖像區域關聯弱;(c) PaDT 的 VRTs 與目標區域高度對齊;(d) 單個 VRT 的熱力圖顯示其預測具有空間連續性。

PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區域。

具體而言,PaDT 引入了 Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會動態地將當前圖像的 patch 特征擴展進文本詞表,形成一個「圖文一體」的動態嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如<VRT_227>),后者直接對應圖像中的某個局部區域。

圖 2:PaDT 實現了文本 token 與視覺 patch token 的統一預測,使 MLLM 能同時輸出語義描述與空間定位。

這種設計巧妙地避開了傳統方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs 僅來自當前圖像,天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓練:讓 VRTs 真正「生效」

僅有 VRTs 還不夠,如何將其轉化為具體的檢測框或分割掩碼?PaDT 設計了一個輕量級的 PaDT Decoder,僅由三個雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態,通過注入任務特定的可學習 token(如 box token、mask token 和 score token),即可統一解碼出 bounding box、segmentation mask 和置信度分數。

更關鍵的是,PaDT 提出了一套魯棒的訓練策略。傳統方法往往要求模型預測目標區域內的所有前景 patch,但這會導致訓練偏差和過擬合。PaDT 則在每次訓練時隨機采樣少量(如 5 個)前景 VRTs 作為監督信號,并通過一種掩碼交叉熵損失,動態屏蔽未選中的 VRT logits,從而鼓勵模型探索多樣化的有效視覺參考。

這種「少而精」的監督方式,不僅提升了模型泛化能力,還顯著降低了推理時的 token 消耗 —— 每個目標僅需 5 個 VRTs,遠少于逐字符生成坐標的開銷。

圖 3:PaDT 整體框架。圖像 patch 特征經動態嵌入模塊擴展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉換為結構化視覺結果。

性能炸裂:3B 模型干翻 78B 巨無霸

PaDT 的實驗結果堪稱驚艷。在 RefCOCO/+/g 的指代表達理解(REC)任務上,PaDT Pro(3B)以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。而在指代表達分割(RES)任務中,PaDT 同樣大幅領先,即便對比使用 SAM 等強大分割基礎模型的方法(如 Text4Seg+SAM),依然保持優勢。

更令人震撼的是在 COCO 開放詞匯檢測任務上的表現。傳統 MLLMs 在此任務上 mAP 普遍低于 20,而 PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達到 39.0 mAP,展現出極強的可擴展性。

圖 4:PaDT 在 RefCOCO/+/g 的指代表達理解(REC)任務結果。PaDT Pro (3B) 以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。

圖 5:PaDT 在 RefCOCO/+/g 的指代表達分割(RES)任務結果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強大分割基礎模型的方法。

圖 6:PaDT 在 COCO 開放詞匯檢測上的結果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外,團隊還構建了一個新的 Referring Image Captioning(RIC) 數據集,要求模型在生成描述時顯式關聯對象 ID。PaDT 在此任務上同樣大幅領先,CIDEr-D 分數從基線的 0.386 提升至 1.450,同時檢測指標(GreedyPrecision 達 82.3%)也證明其生成的 caption 具備極強的視覺 grounding 能力。

圖 7:Referring Image Captioning (RIC) 數據集。

為什么 PaDT 如此有效?

PaDT 的成功,源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實現了模態間的原生對齊。

首先,動態嵌入機制確保了 VRTs 與當前圖像的強綁定,避免了跨圖像混淆;其次,統一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡化了訓練;最后,輕量解碼器將復雜的 dense prediction 任務從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準的空間輸出能力。

值得一提的是,PaDT 還展現出強大的多任務泛化能力。通過聯合訓練 REC、RES、OVD 和 RIC 任務得到的 PaDT Pro 模型,僅通過切換 prompt 即可無縫切換任務,且性能普遍優于單任務模型,證明了該范式的通用性。

結語:邁向真正的通用多模態智能

PaDT 的提出,標志著 MLLMs 在細粒度視覺理解上邁出了關鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準地指出圖像中的每一個相關區域,并生成對應的結構化輸出。

這項工作不僅在技術上實現了突破,更在理念上啟發我們:未來的通用人工智能,或許不應強行將一切信息壓縮到文本空間,而應允許不同模態以其最自然的形式共存與交互。

目前,PaDT 的代碼和 checkpoints(模型權重)已開源。對于關注多模態、計算機視覺與大模型融合的研究者和工程師而言,這無疑是一個值得關注和嘗試的新范式。

作者信息

蘇永怡 (第一作者)

華南理工大學博四研究生,A*STAR I2R 訪問學者,主要研究多模態大語言模型、基礎視覺模型、測試時領域適應課題。

  • 作者個人主頁:https://yysu.site/

張浩杰 (共同一作)

華南理工大學三年級研究生,微信視覺團隊實習生。主要研究多模態大模型、視頻生成模型、基礎視覺模型。

  • 作者個人主頁:https://zhang-haojie.github.io/
責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-13 09:39:13

2025-01-08 08:21:16

2024-11-13 15:00:00

模型數據

2024-05-21 07:54:30

視頻多模態語義檢索算法

2023-04-28 15:27:06

微軟模型

2024-12-18 18:57:58

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態大模型Python

2023-05-15 12:14:02

ChatGPT語音模型

2023-10-17 12:34:04

2023-09-19 09:22:54

數據訓練

2024-03-25 12:30:18

AI訓練開源

2024-04-25 14:53:59

模型視覺

2024-09-25 14:53:00

2025-05-21 08:47:00

2024-01-04 17:21:08

訓練數據

2024-05-17 16:02:00

2025-03-19 09:30:00

2025-11-05 08:51:33

點贊
收藏

51CTO技術棧公眾號

欧美国产日产图区| 亚洲精选久久| 欧美成人精品福利| 3d动漫一区二区三区| 精品亚洲成a人片在线观看| 日韩国产高清在线| 欧美黑人一级爽快片淫片高清| 国产一级黄色录像| 亚洲精品三区| 色综合中文字幕| 91精品一区二区三区四区| 香蕉视频免费在线看| 精品影视av免费| 日本成人激情视频| 日韩一级片av| 日韩av自拍| 亚洲精品一区二区在线| 秋霞午夜鲁丝一区二区| 你懂得影院夜精品a| 亚洲图片有声小说| 9999在线观看| 国产中文字幕在线视频| 99久久精品国产麻豆演员表| 国产日韩欧美夫妻视频在线观看 | 中文字幕日韩av资源站| 狠狠色综合一区二区| 99久久精品国产成人一区二区| 亚洲一区区二区| 欧美国产极速在线| sm捆绑调教视频| 少妇精品久久久一区二区三区| 日韩精品最新网址| 免费成人黄色大片| 国产成人福利夜色影视| 色94色欧美sute亚洲线路二 | 国产福利视频网站| 欧美日韩伦理在线免费| 亚洲免费一级电影| 日韩片在线观看| 97品白浆高清久久久久久| 欧美日韩国产综合一区二区| 日韩中文字幕免费在线| 中文字幕乱码在线播放| 婷婷中文字幕一区三区| 男女日批视频在线观看| 污污在线观看| 一区二区高清在线| 嫩草影院中文字幕| 成人在线视频亚洲| 日韩美女视频19| 日本黄xxxxxxxxx100| 巨大荫蒂视频欧美大片| 亚洲色欲色欲www| 一区二区三区精品国产| 男人影院在线观看| 日韩一区欧美一区| 国产一区一区三区| 欧美激情午夜| 亚洲美女屁股眼交| 国产情侣第一页| 日本无删减在线| 亚洲国产精品精华液网站| 97干在线视频| 欧美aa一级| 色哟哟一区二区三区| 欧美视频第三页| 国产精品亚洲一区二区三区在线观看| 日本二三区不卡| 国模私拍视频在线观看| 精品国产亚洲一区二区在线观看 | 欧美一级小视频| 精品国产亚洲一区二区三区在线| 欧美sm极限捆绑bd| 日本japanese极品少妇| 国产精品一区二区av日韩在线| 一本色道久久综合狠狠躁篇怎么玩 | 欧美精品制服第一页| 国产一级一级片| 久久精品人人| 成人免费淫片视频软件| 国产 欧美 精品| 国产亚洲一区二区三区| 伊人久久大香线蕉综合75| 神马午夜伦理不卡| 岛国av在线不卡| 欧美美女一级片| 国产精品18hdxxxⅹ在线| 亚洲网址你懂得| 搜索黄色一级片| 亚洲在线成人| 成人免费大片黄在线播放| 午夜精品小视频| 久久久噜噜噜久久中文字幕色伊伊| 亚洲精品在线免费看| 欧美极品少妇videossex| 婷婷久久综合九色综合绿巨人 | 国产精品色婷婷在线观看| 亚洲成**性毛茸茸| 一级二级黄色片| 伊人久久久大香线蕉综合直播| 日韩av理论片| 亚洲精品无码久久久| 国产亚洲欧美激情| 国产1区2区3区中文字幕| 成人精品电影在线| 亚洲成人免费网站| 婷婷丁香综合网| 国产精品一页| 波多野结衣一区二区三区在线观看 | 国产经典欧美精品| 日韩三级在线播放| 51av在线| 日韩午夜电影av| 成人激情五月天| 亚洲精选91| 成人xxxxx色| 超碰免费在线观看| 欧美日韩亚洲成人| 国产大学生视频| 亚洲午夜精品一区 二区 三区| 秋霞av国产精品一区| 亚洲成人第一区| 亚洲欧洲国产日韩| 午夜免费高清视频| 视频一区在线观看| 91精品国产高清久久久久久久久| 国产富婆一级全黄大片| 中文字幕日本不卡| 一区二区三区 欧美| 在线成人动漫av| 91高清视频免费| 国模人体一区二区| 亚洲一二三区在线观看| 亚洲一区二区中文字幕在线观看| 日韩欧美综合| 国产精品视频久| yiren22综合网成人| 日韩欧美在线视频| 久久精品国产亚洲av麻豆| 一本综合久久| 精品久久久久久一区| 国产偷倩在线播放| 亚洲国产三级网| 亚洲欧美在线视频免费| 国产成人精品在线看| 国内外成人激情免费视频| 国产精品成人3p一区二区三区| 中日韩午夜理伦电影免费| 国产情侣呻吟对白高潮| 日本一区二区三区高清不卡| 久久久国产欧美| 国产精品一区二区三区av麻 | 国产精品污www在线观看| 久久午夜夜伦鲁鲁一区二区| 国产成人影院| 国产精品男人的天堂| 欧美激情黑人| 日韩视频免费观看高清在线视频| 中文字幕手机在线观看| 成人中文字幕合集| 女性女同性aⅴ免费观女性恋| 欧美激情极品| 国产精品久久久av久久久| 午夜视频成人| 日韩欧美高清在线| 天天操中文字幕| 国产亚洲精品7777| 伊人影院综合在线| 欧美日韩国内| 欧美激情专区| 欧美亚洲综合视频| 欧美激情一区二区三区高清视频| 凸凹人妻人人澡人人添| 欧美性猛交xxxx乱大交极品| 国产午夜精品久久久久久久久| 国产美女一区二区三区| 18禁免费观看网站| 欧美日韩性在线观看| 亚洲va久久久噜噜噜久久天堂| 91福利区在线观看| 一本大道亚洲视频| 午夜精品无码一区二区三区| 欧美性猛xxx| 男人操女人的视频网站| 99精品国产视频| 九九热精品在线播放| 日韩午夜电影| 一区二区三区四区免费视频| 国产精品2023| 国产中文欧美精品| 中文不卡1区2区3区| 久久精品电影一区二区| 五月婷中文字幕| 欧美久久久久免费| 国产精品777777| 国产精品人成在线观看免费| 久久久久久婷婷| 久久精品国产精品青草| 成人在线观看你懂的| 日韩欧美高清在线播放| 精品乱码一区| 精品网站999| 国产精品第2页| yellow在线观看网址| 北条麻妃久久精品| 免费一级在线观看播放网址| 日韩一二在线观看| 中文字幕日产av| 日韩欧美一区二区三区| 久草成人在线视频| 欧美激情一区二区三区四区| 国产高潮失禁喷水爽到抽搐| 久久国产剧场电影| 欧美日韩亚洲第一| 亚洲午夜视频| 午夜啪啪福利视频| 久久国产精品成人免费观看的软件| 国产九色91| 亚洲精品一区国产| 91久久中文字幕| 激情久久99| 国产精品99一区| 忘忧草在线影院两性视频| 欧美国产精品人人做人人爱| 黄色免费网站在线| 色婷婷综合久久久久| 男人av在线| 亚洲欧美一区二区精品久久久 | 亚洲人a成www在线影院| 农村少妇久久久久久久| 日韩手机在线导航| 国产欧美日韩综合精品一区二区三区| 欧美天堂一区二区三区| 久久久久99精品成人片我成大片| 亚洲第一激情av| 国产一级二级三级视频| 一区二区三区美女视频| 麻豆视频在线免费看| 一色屋精品亚洲香蕉网站| 国产精品酒店视频| 中文字幕一区二区在线观看| 欧美福利第一页| 国产亚洲一二三区| 永久免费毛片在线观看| 国产三级欧美三级日产三级99| 国产精品扒开腿做爽爽| 久久精品欧美日韩精品 | 亚洲日本电影在线| 极品魔鬼身材女神啪啪精品| 日韩久久一区二区| 亚洲国产精品免费在线观看| 一区二区在线观看视频在线观看| 美女的奶胸大爽爽大片| 亚洲综合无码一区二区| 一级免费在线观看| 一本大道久久精品懂色aⅴ | 蜜桃久久久久久久| 欧美wwwwwww| 国产精品小仙女| 中国xxxx性xxxx产国| 91麻豆国产自产在线观看| 国产精品揄拍100视频| 国产丝袜美腿一区二区三区| 国产真人做爰视频免费| 一区在线观看免费| 久久久.www| 欧美午夜激情小视频| 日韩人妻精品中文字幕| 欧美日韩精品综合在线| 亚洲国产999| 国产视频久久久久| 蜜桃视频网站在线观看| 欧美黄色三级网站| 少妇一区视频| 91免费欧美精品| 国产亚洲精品美女久久| 欧美日韩精品免费看| 97精品一区二区| 成人免费毛片在线观看| 三级久久三级久久久| 一级网站在线观看| 97精品视频在线观看自产线路二| 天天操天天舔天天射| 亚洲综合色婷婷| 国产日韩在线免费观看| 日韩免费电影网站| 激情综合闲人网| 欧美高跟鞋交xxxxxhd| 成人影院大全| 97人人干人人| 欧美日韩精品在线一区| 蜜桃视频一区二区在线观看| 久久精品官网| 亚洲欧洲国产视频| 欧美韩国日本不卡| 日韩欧美大片在线观看| 欧美日韩精品二区第二页| 天堂av在线7| 欧美疯狂做受xxxx高潮| 亚洲日本网址| 精品高清视频| 亚洲香蕉av| 黄色免费网址大全| 99在线精品观看| 欧美成人精品欧美一级| 欧美综合在线视频| 日韩在线一区二区三区四区| 久久久精品久久久| 久久久人成影片一区二区三区在哪下载| av在线亚洲男人的天堂| 欧美岛国激情| 成人免费毛片播放| 成人福利视频网站| 久久久久黄色片| 在线播放日韩导航| 18视频免费网址在线观看| 91av成人在线| 久久97久久97精品免视看秋霞| 国产卡一卡二在线| 美国毛片一区二区| 影音先锋制服丝袜| 色久综合一二码| 欧美在线一卡| 91chinesevideo永久地址| 都市激情亚洲| av 日韩 人妻 黑人 综合 无码| 美国毛片一区二区| 三级黄色片在线观看| 欧美性感一类影片在线播放| 黄色在线网站| 日本一本a高清免费不卡| 日韩三区视频| 日本欧美黄色片| 99久久久无码国产精品| 日韩欧美三级在线观看| 亚洲福利视频网站| 2021天堂中文幕一二区在线观| 99精品在线直播| 国产精品草草| 成人在线视频免费播放| 亚洲大片精品永久免费| 人妻中文字幕一区| 1769国产精品| 色综合久久中文| 各处沟厕大尺度偷拍女厕嘘嘘| www.亚洲精品| 久草视频一区二区| 国产一区二区三区中文 | 久久蜜桃精品| 无码 人妻 在线 视频| 在线观看国产精品网站| 波多野结衣在线影院| 国产日韩欧美成人| 综合在线一区| 人妻换人妻a片爽麻豆| 精品久久久久国产| 国产中文字幕在线观看| 国产精品露脸av在线| 99久久夜色精品国产亚洲1000部| 999在线精品视频| 亚洲一二三四久久| 九色视频在线观看免费播放 | 136福利精品导航| 青青青国产在线观看| 久久久午夜精品| 伊人免费在线观看| 欧美日韩爱爱视频| 天海翼精品一区二区三区| 成人黄色一区二区| 中文字幕亚洲成人| 日批视频在线播放| 国产精品99导航| 欧美激情日韩| 少妇特黄一区二区三区| 欧美日韩第一区日日骚| 日韩影视在线| 欧洲亚洲一区| 国产成人在线视频免费播放| 800av免费在线观看| 最新中文字幕亚洲| 精品无人区一区二区| 不卡av免费在线| 亚洲国产乱码最新视频| 成年在线观看免费人视频| 国产aⅴ精品一区二区三区黄| 日韩精品福利网| 久久久综合久久久| 国产亚洲成精品久久| 99精品中文字幕在线不卡| 久久午夜夜伦鲁鲁一区二区| 一区二区三区四区中文字幕| 国产精品一二三区视频| 99久久99久久| 麻豆精品国产传媒mv男同| 国产无遮挡又黄又爽在线观看| 在线观看免费高清视频97| 国产一区福利| 日韩成人av免费| 欧美性videosxxxxx| 99riav视频在线观看|