精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CVPR 2025 | 多模態統一學習新范式來了,數據、模型、代碼全部開源

人工智能 新聞
本文分別從數據和模型的角度出發,提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助,大量的實驗結果以及可視化分析均證明了該范式的有效性。

本文第一作者杜恒輝為中國人民大學二年級碩士生,主要研究方向為多模態大模型視聽場景理解與推理,長視頻理解等,師從胡迪副教授。作者來自于中國人民大學,清華大學和北京騰訊 PCG AI 技術中心。

我們人類生活在一個充滿視覺和音頻信息的世界中,近年來已經有很多工作利用這兩個模態的信息來增強模型對視聽場景的理解能力,衍生出了多種不同類型的任務,它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務,相比之下,我們人類對周圍復雜的的世界具有一個通用的感知理解能力。因此,如何設計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當前主流的學習范式是通過構建大規模的多任務指令微調數據集并在此基礎上直接做指令微調。然而,這種學習范式對于多任務學習而言是最優的嗎?

最近中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室,清華大學和北京騰訊 PCG AI 技術中心合作發表的 CVPR 2025 論文指出,當前這種主流的學習范式忽視了多模態數據的異質性和任務間的復雜關系,簡單地將所有任務聯合訓練可能會造成任務間的相互干擾。

為了有效實現任務間的顯示互助,作者團隊提出了多模態大模型學習的新范式,分別從數據和模型兩個角度實現了多模態場景理解任務的高效一統,并在多個場景理解任務上超過了垂類專家模型,數據集、模型和代碼全部開源。目前工作還在進一步拓展中,歡迎感興趣的領域專家加入,共同構建一個統一的理解、生成與推理的框架。如有興趣,請郵件聯系 dihu@ruc.edu.cn。

圖片

  • 論文標題:Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
  • 論文鏈接:https://arxiv.org/abs/2503.13068
  • 項目主頁:https://github.com/GeWu-Lab/Crab

統一的多模態場景理解能力展示

時序定位

輸入一段音視頻,讓模型找到發生的音視頻事件并定位出時序片段。

空間定位

輸入一段音頻和一張圖像,讓模型定位出圖片中發聲的物體為止。

時空推理

輸入一段樂器演奏的音視頻場景,讓模型回答相關問題,涉及到時序和空間信息的理解以及推理。

像素級理解

輸入一段音頻和一張圖片,讓模型分割出圖片中發聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務。

圖片


圖片



圖片


圖片

視覺和聽覺信息是我們人類接觸最多的兩類信息,近年來已經有很多工作開始探究基于這兩個模態的視聽場景理解任務,主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務,它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務,相比之下,我們人類對周圍復雜的世界具有一個通用的感知理解能力。因此,讓模型也像人類一樣具有統一的視聽場景理解能力是具有重要意義的。

隨著多模態大語言模型的發展,構建大規模的指令微調數據集并將各種不同的任務直接進行聯合訓練已經成為當前主流的學習范式。然而,這種學習范式忽視了多模態數據的異質性和任務間的復雜關系,簡單地將所有任務聯合訓練可能會造成任務間的相互干擾,這種現象在之前的工作中已經被證實,并且這個問題對于任務間差異較大的視聽場景理解任務來說則更為重要。為了有效解決上述問題,本文分別從數據和模型的角度針對性地提出了一個統一的顯示互助學習范式來有效實現任務間的顯示互助。為了明確任務間的互助關系,首先構建了一個具有顯示推理過程的數據集 AV-UIE,它包含具體的時序和空間信息,可以有效建立任務間的互助關系。然后為了進一步在學習過程中促進任務間的相互協助,本文提出了一種具有多個 Head 的類 MoE LoRA 結構,每個 Head 負責學習多模態數據交互的不同層面,通過這種結構將模型的不同能力解耦,讓任務間的互助關系顯示地展現出來,共享的能力在不同任務間建立起相互協助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調數據集

從數據的角度來看,現有視聽場景理解數據集的標簽是簡單的單詞或者短語,這樣簡單的標簽在訓練過程中并不能顯著地幫助到其它任務,或者說只能以一種隱式的方式增強模型的訓練效果,我們并不能確保一定是對其它任務有幫助的。為了進一步地促進任務間的顯示互助并將互助關系顯示地體現出來,本文提出了具有顯示推理過程的視聽場景指令微調數據集 AV-UIE,通過細化現有數據集的標簽,額外增加了顯示的推理過程,其中包含具體的時空信息,這些信息明確了任務間的互助關系。

圖片

圖 1. 具有顯示推理過程的 AV-UIE 數集構造流程和統計分析

圖 1 展示了具體的構建過程以及對數據集的統計分析,通過 in-context learning 的方式利用現有的強大的多模態大模型進行標注,從不同任務中的數據中獲取音視頻場景,為了保證結果的準確性和推理過程的合理性,原有數據的標簽也作為輸入,讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數據的質量,最終再由人工進行檢查糾正。在訓練過程中這些細化后的標簽能夠鼓勵模型準確理解視聽場景內容并輸出相應的時空信息,以此來增強模型特定的能力,從而幫助到其它依賴這些特定能力的任務。圖 2 展示了 AVQA 和 AVVP 這兩種任務實現顯示互助的數據樣例,不同的顏色表示不同類型的時空信息,這兩個任務都能夠受益于增強后的空間定位和時序定位能力。

圖片

圖 2. AVQA 和 AVVP 任務通過顯示推理過程實現相互幫助的示例

AV-UIE 數據集包含九種任務的數據,總共 200K 訓練樣本。其中,時序定位任務包含 AVE 和 AVVP,數據占比 6.8%,空間定位任務包含 ARIG,數據占比 25.8%,像素級理解任務包含 S4,MS3,AVSS 和 Ref-AVS,數據占比 41.6%,時空理解任務包含 AVQA,數據占比 25.8%。相比于其它的指令微調數據集,盡管每一個任務的訓練樣本數比較小,但是在顯示推理過程的幫助下,任務間的顯示互助仍然可以增強模型在單個任務上的性能。 

Crab: 實現任務間顯示互助的統一學習框架

從數據的角度保證了模型可以輸出帶有時序信息的顯示推理過程,這是從結果上對模型進行約束,顯示地增強不同類型的能力,但是如何保證模型在學習過程中可以有效地學到這些不同的能力呢?為此,本文提出了一個視聽場景理解的統一學習框架,圖 3 展示了模型的整體架構,主要包括三個統一的多模態接口,分別用來處理 audio, visual 和 segmentation mask 數據,一個具有 interaction-aware LoRA 結構的大模型,用于在學習過程中有效學習數據交互的不同層面從而實現任務間的顯示互助。

圖片

圖 3. 模型總體架構

傳統的 LoRA 結構由一組對稱的 A 矩陣和 B 矩陣組成,用于在下游任務上高效微調模型,具有多組對稱的 AB 矩陣的 LoRA MoE 結構通常被用來多任務微調,每一組 LoRA 負責解決單個任務。為了進一步地促進任務間的相互協助,本文提出的 Interaction-aware LoRA 結構(如圖 4 所示)由一個共享的 A 矩陣和多個不同的 LoRA Head B 矩陣組成,每個 Head 期望去學習數據交互的不同層面,進而具備不同的能力。為了有效區分不同的 Head,額外增加一個 Router 用來給不同的任務分配不同的權重。例如,在學習過程中,時空推理任務 AVQA 聚焦于增強模型的時序和空間定位能力,那么就會更多的激活對應 Head 的參數,增強它們特定的能力,而其它的時序定位和空間任務都可以受益于這些增強后的 Head。從這個角度來說,模型的能力被解耦成多個特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務,而多個任務間共享的能力建立起了任務間協助的橋梁。

圖片

圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結構

實驗與分析

為了證明顯示互助學習范式的有效性,本文分別對比了在所有任務上通用的模型以及在單個任務上專有的模型,并提供了全面的消融實驗對比結果。表 1 展示了與多個任務上的通用模型的對比結果,相比于其它模型,本文提出的 Crab 統一學習框架在所有類型的任務上具有更加通用的理解能力,并且在多個任務上取得了更好的表現。這表明了 Crab 在視聽場景通用理解能力方面的優越性。

圖片

表 1. 與多個任務上的通用模型的對比結果

表 2,3,4,5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務的專有模型對比結果,可以看到在 AVE、ARIG、AVQA 等任務上 Crab 均優于單個任務上的專有模型,在 AVVP 和 AVS 任務上取得了相近的表現。表 6 展示了全面的消融實驗結果,相比于單個任務,簡單的多任務 LoRA 微調并不能充分實現任務間的相互協助,甚至在一些任務上可能會降低性能。相比之下,在顯示互助的學習范式下,任務間的相互干擾被有效緩解,任務間的相互協助提高了單個任務的性能。

圖片

表 2. 與時序定位任務專有模型對比結果

圖片

表 3. 與空間定位任務專有模型對比結果

圖片

表 4. 與像素級理解任務專有模型對比結果

圖片

表 5. 與時空推理任務專有模型對比結果

圖片

表 6. 全面的消融實驗對比結果

為了進一步證明任務間顯示互助的過程,本文對多個 LoRA Head 進行了可視化分析實驗。在推理過程中,對于每個任務的多模態輸入數據,每個 LoRA Head 會產生一個權重,權重越大,表明完成該任務越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務上的權重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發現兩點:1)相同類型的任務對不同 Head 的依賴程度是類似的,它們對不同 Head 的依賴權重分別形成不同的簇;2)不同任務對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個任務間可能會依賴于同一種能力,因此它們可以建立相互協助的關系。

圖片

圖 3. 3 個 LoRA Head 的權重可視化

總述

本文分別從數據和模型的角度出發,提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助,大量的實驗結果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領域的發展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態推理的新范式,希望將現有的多模態推理工作提升到一個新的高度。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-06 14:09:32

模型開源

2025-05-14 08:51:00

2025-06-17 02:25:00

工業異常檢測

2025-11-18 08:50:00

2025-06-09 09:32:35

2024-03-25 12:40:19

訓練模型

2025-07-31 08:45:00

模型AI開源

2025-01-06 10:00:00

模型視覺生成

2023-07-30 16:05:44

多模態學習框架自然語言

2025-11-11 08:45:00

2025-08-25 08:45:00

模型代碼開源

2025-07-14 08:42:00

開發模型圖像生成

2024-10-22 13:33:48

2025-10-28 08:46:00

2023-10-07 09:29:09

2024-12-23 14:10:00

AI模型數據

2024-04-08 12:19:19

AI數據

2024-04-15 12:28:00

AI模型

2025-10-23 14:05:35

點贊
收藏

51CTO技術棧公眾號

视频国产一区二区三区| 九九视频在线观看| 久久69成人| 中文字幕在线不卡视频| av成人观看| 国产情侣自拍av| 国产日产一区| 欧美一级片免费看| 国产女大学生av| 亚洲乱亚洲乱妇| 国产精品综合视频| 热久久99这里有精品| www欧美com| 欧美日韩123| 日韩一区二区三区视频在线观看| 欧洲黄色一级视频| 老司机精品影院| av电影在线观看一区| 国产精品视频最多的网站| 精品无码av在线| 91综合视频| 亚洲精品中文字| 人妻精油按摩bd高清中文字幕| 欧美大电影免费观看| 亚洲一区二区三区四区在线免费观看 | 欧美自拍偷拍一区| 91九色丨porny丨国产jk| 欧美一区二区三区在线观看免费| 99国产精品国产精品毛片| 91深夜福利视频| 欧美激情一区二区三区免费观看| 亚洲看片免费| 欧美肥婆姓交大片| 精品自拍偷拍视频| 日本精品三区| 亚洲三级免费看| 性欧美丰满熟妇xxxx性仙踪林| 粉嫩av一区二区| 欧美一区二区三区婷婷月色| 色播五月综合网| 欧美xxx性| 色又黄又爽网站www久久| 国产a级片网站| 日韩精品亚洲人成在线观看| 亚洲欧美电影一区二区| 一区二区视频国产| 日本韩国在线视频爽| 国产欧美精品一区二区色综合 | 91av免费观看| 色婷婷成人网| 欧美精品日日鲁夜夜添| 美女在线视频一区二区| 成人做爰视频www| 欧美午夜电影网| 日本美女高潮视频| 日韩av电影资源网| 欧美三级中文字幕| 拔插拔插华人永久免费| 色综合视频一区二区三区日韩| 欧美亚洲国产bt| 欧美成人黄色网址| 成人国产一区| 欧美日韩不卡在线| 国产无色aaa| 欧美一区在线观看视频| 日韩一卡二卡三卡四卡| 国产大学生av| 久久精品亚洲成在人线av网址| 日韩精品免费一线在线观看| 人妻精品久久久久中文字幕| 精品久久不卡| 久久精品国产一区二区电影| 久久久国产精华液| 日韩午夜av在线| 国产黑人绿帽在线第一区| 少妇一级淫片日本| 久久成人免费网| 91久久精品国产91久久性色tv| 亚洲欧美黄色片| 久久久久成人黄色影片| 一区二区在线观看网站| 羞羞网站在线看| 黑人巨大精品欧美一区二区三区| 人人妻人人添人人爽欧美一区| 电影天堂国产精品| 制服丝袜亚洲精品中文字幕| jjzz黄色片| 国产一区二区三区天码| 久久av.com| 国产剧情在线视频| 极品尤物av久久免费看| 国产91视觉| 国产在线电影| 一区二区三区美女视频| 99re在线视频免费观看| 麻豆精品在线| 亚洲精品自产拍| 免费看一级大片| 国产精品一级| 亚洲自拍偷拍色片视频| 美女欧美视频在线观看免费| 亚洲色图欧洲色图| 日本精品一区二区三区四区| 国产精品日韩精品在线播放| 国产视频久久久久久久| 成人自拍小视频| 亚洲女人av| 电影午夜精品一区二区三区| 电影在线高清| 午夜精品福利一区二区三区av | 六九午夜精品视频| 亚洲精品久久久一区二区三区| 国产黄色片在线| 国产伦理一区| 成人免费在线看片| 日本最黄一级片免费在线| 欧美日韩一区二区在线 | 久久国产精品色av免费看| 精品国内产的精品视频在线观看| 亚洲s码欧洲m码国产av| 国产成人av电影免费在线观看| 在线观看国产一区| 日本韩国欧美| 亚洲精品国精品久久99热一| 免费在线黄色片| 精品午夜一区二区三区在线观看| 蜜桃视频在线观看成人| 免费在线看电影| 91精品国产黑色紧身裤美女| 国产精品视频在| 丝袜美腿亚洲色图| 久久一区二区三区av| 91福利区在线观看| 亚洲成人av片| 久一区二区三区| 国产福利一区二区三区视频| 在线观看成人av| 亚洲国产91视频| 中文字幕一精品亚洲无线一区 | 精品成人佐山爱一区二区| 希岛爱理中文字幕| 国产揄拍国内精品对白| 一区二区在线观| 最新亚洲国产| 日韩中文字幕亚洲| 一级黄在线观看| 国产精品美女久久久久久久久| 中文字幕一区二区三区四区在线视频| 亚洲日本三级| 国产91久久婷婷一区二区| 韩国福利在线| 欧美综合久久久| 日韩一卡二卡在线观看| 另类小说欧美激情| 在线免费观看成人| 国产亚洲字幕| 欧美激情免费视频| 丰满肉嫩西川结衣av| 香蕉乱码成人久久天堂爱免费| 日本一区二区在线观看视频| 亚洲日本欧美| 明星裸体视频一区二区| 日本高清不卡一区二区三区视频| 国产亚洲日本欧美韩国| 中国老头性行为xxxx| 亚洲欧美综合另类在线卡通| 日本不卡一区二区在线观看| 亚洲精品极品少妇16p| 97在线电影| 欧美a级在线观看| 亚洲天堂av在线免费观看| 特级西西444www大胆免费看| 国产精品短视频| 在线播放第一页| 久久高清免费观看| 亚洲精品9999| 免费一级欧美在线大片| 国产+人+亚洲| 国产高清免费av在线| 这里只有精品视频在线观看| 国产无码精品一区二区| 久久色成人在线| 久久人人爽av| 亚洲小说欧美另类社区| 久久人人爽爽人人爽人人片av| 精品久久99| 久久久久久久久久久久久久久久久久av| 日韩一区免费视频| 欧美色精品天天在线观看视频| 欧美成人综合色| 不卡一卡二卡三乱码免费网站| 欧美aⅴ在线观看| 911精品美国片911久久久| 精品视频第一区| 精品自拍视频| 欧美怡春院一区二区三区| 四虎久久免费| 国产视频久久网| 亚洲av无码乱码国产麻豆| 欧美午夜精品在线| 青娱乐91视频| 国产精品入口麻豆九色| 韩国无码一区二区三区精品| 久久成人麻豆午夜电影| 少妇性饥渴无码a区免费| 五月激情久久久| 日韩三级电影| 国产女人18毛片水真多18精品| 国产精品私拍pans大尺度在线| 国产蜜臀av在线播放| 色多多国产成人永久免费网站| 日韩中文字幕免费观看| 欧美二区三区91| 黄色av网站免费观看| 亚洲国产一区二区在线播放| 免费黄色国产视频| 久久色在线观看| 91丨porny丨对白| 国产一区二区三区综合| 亚洲 激情 在线| 欧美在线综合| 少妇高潮毛片色欲ava片| 天天av综合| 日韩精品欧美在线| 思热99re视热频这里只精品| 不卡视频一区| 精品一区二区三区在线观看视频| 国产极品jizzhd欧美| 中文字幕不卡三区视频| 国内成人精品视频| 18网站在线观看| 久久视频在线免费观看| 日本美女在线中文版| 国产午夜精品视频免费不卡69堂| 青青草视频在线观看| 亚洲第一区中文99精品| 亚洲毛片在线播放| 欧美一区二区三区四区在线观看 | 日韩免费中文专区| 你懂的一区二区三区| 久久综合中文色婷婷| 日本福利一区| 鲁丝一区鲁丝二区鲁丝三区| 欧美wwwsss9999| 欧美精品人人做人人爱视频| 日韩av影院| 欧美日韩一区二区三区免费| 九九亚洲视频| 三区精品视频观看| 色中色综合网| 女同性恋一区二区| 欧美久久视频| 老太脱裤子让老头玩xxxxx| 激情欧美丁香| av观看免费在线| 老牛国产精品一区的观看方式 | 国产一区二区调教| 精品人妻一区二区乱码| 国产99久久久国产精品潘金 | 亚洲动漫精品| 日韩在线导航| 欧美1级片网站| 欧美黄色免费网址| 国产精品毛片在线看| 成人一级片网站| 天堂成人国产精品一区| 国产区二区三区| 国产精品影音先锋| 7788色淫网站小说| 欧美激情一区二区三区蜜桃视频| 天天色天天综合| 一区二区日韩电影| 日本道在线观看| 欧美在线看片a免费观看| 国产又黄又猛又爽| 精品国产一区二区三区av性色| 五月激情婷婷网| 最近2019中文字幕mv免费看| 中文字幕资源网在线观看| 午夜伦理精品一区| 91精品影视| 亚洲自拍偷拍色图| 免费看成人吃奶视频在线| 在线无限看免费粉色视频| 国产精品sm| 无码日韩人妻精品久久蜜桃| 国产在线播放一区二区三区| 91九色蝌蚪porny| 国产欧美日韩激情| 国产精品第108页| 欧美女孩性生活视频| 日韩有码第一页| 日韩最新在线视频| 精精国产xxx在线视频app| 国产日本欧美一区二区三区| 久久久久97| www.-级毛片线天内射视视| 香蕉视频成人在线观看| 国产精品嫩草影视| 久久久不卡网国产精品一区| 久草国产在线视频| 欧美色视频在线| 欧美日韩国产综合视频| 欧美高清视频在线观看| 日本成人片在线| 国产一区视频观看| 亚洲成av人片乱码色午夜| 亚洲熟女乱色一区二区三区| 国产99久久久国产精品| 一级免费黄色录像| 日本高清无吗v一区| 刘玥91精选国产在线观看| 色青青草原桃花久久综合| 日本а中文在线天堂| av一区和二区| 天天射成人网| 一区二区xxx| 久久女同性恋中文字幕| www.av视频在线观看| 777精品伊人久久久久大香线蕉| 黄色软件在线| 欧美亚洲国产日本| 国产亚洲精品美女久久| 可以在线看黄的网站| 青青草国产精品97视觉盛宴| 亚洲狠狠婷婷综合久久久久图片| 亚洲一区在线观看视频| 国产偷拍一区二区| 久久精品国产成人精品| 国产91精品在线| 日韩国产精品一区二区三区| 久久国产精品99国产| 中国xxxx性xxxx产国| 亚洲黄色在线视频| www.天堂av.com| 欧美成人免费网| 亚洲大奶少妇| 国产黄色激情视频| 国产激情视频一区二区三区欧美| 天天鲁一鲁摸一摸爽一爽| 欧美日韩国产bt| 欧美私人网站| 91九色单男在线观看| 国产精品传媒精东影业在线| 视频在线观看免费高清| 国产精品久久久久久户外露出 | 亚洲欧洲xxxx| 亚洲精品国产嫩草在线观看| 日韩电影免费观看高清完整| 日韩高清在线不卡| 国产第一页精品| 91精品啪在线观看国产60岁| 影音先锋在线播放| 国产91一区二区三区| 亚洲美洲欧洲综合国产一区| 欧美深性狂猛ⅹxxx深喉| 欧美日韩裸体免费视频| 久草在线免费福利资源| 国产精品久久不能| 99精品小视频| 蜜桃视频无码区在线观看| 亚洲成人在线观看视频| 无码精品一区二区三区在线| 国产精品99久久久久久白浆小说 | 日韩精品一级| 欧美图片激情小说| 26uuu久久综合| 色婷婷久久综合中文久久蜜桃av| 久久精品成人欧美大片| 成人知道污网站| 日本在线观看a| 亚洲欧洲成人自拍| 日本韩国在线观看| 国产精品27p| 欧美在线二区| 黄色国产在线观看| 欧美视频一区二| 呦呦在线视频| 区一区二区三区中文字幕| 久久激情综合网| 国产成人精品亚洲男人的天堂| 亚洲午夜av久久乱码| 国产亚洲高清在线观看| 日本成年人网址| 自拍偷拍亚洲综合| 外国精品视频在线观看 | 亚洲风情第一页| 国产v综合ⅴ日韩v欧美大片| 婷婷综合在线| 亚洲の无码国产の无码步美| 欧美日韩五月天| 九色porny丨国产首页在线| 亚洲欧洲精品在线| 国产.欧美.日韩| 在线观看一二三区| 97国产在线视频| 我不卡伦不卡影院| 日本xxxxxxxxx18| 精品福利二区三区| 久久亚洲人体|