精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI也會「刷抖音」!清華領銜發布短視頻全模態理解新模型 | ICML 2024

人工智能
音視頻大語言模型在處理視頻內容時,往往未能充分發揮語音的作用。video-SALMONN模型通過三部分創新:音視頻編碼和時間對齊、多分辨率因果Q-Former、多樣性損失函數和混合未配對音視頻數據訓練。該模型不僅在單一模態任務上表現優異,更在視聽聯合任務中展現了卓越的性能,證明了其全面性和準確性。

想要看懂短視頻,除了視覺內容外,語音和音頻等聽覺信息,如視頻音樂、音效、語音內容等,也對短視頻的理解起到關鍵作用。

音視頻大語言模型(av-LLMs)在近幾年取得了顯著進展,但語音作為視頻中人類語言的主要載體,仍未在這些模型中得到充分探索。語音不僅提供了豐富的語言和語義信息,還有助于理解視頻中的情感和潛在意義。

與此同時,語音信號還包含豐富的副語言信息,如音調和音高,以及多樣的說話者屬性(如年齡、性別、口音和身份),這些都是視頻理解中不可或缺的要素。

然而,增強通用視聽大語言模型的語音能力極具挑戰性,這需要時間上精細的建模,并在粗略(如視頻主題)和精細(如唇部動作)時間尺度上與其他模態進行復雜的交互。

近期,發表在ICML  2024的論文《video-SALMONN:  Speech-Enhanced Audio-Visual Large Language Models》成為了首個集齊視頻中所有音視頻元素(自然圖像、文字、語音、音頻事件、音樂)的大模型。

圖片圖片

video-SALMONN論文鏈接:https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN論文鏈接:https://arxiv.org/abs/2310.13289

Github Page:https://github.com/bytedance/SALMONN

通過下面幾個例子,一起來看看video-SALMONN是如何通過語音-音頻-視頻的信息來解讀視頻內容的吧!

首先來一段經典的《泰坦尼克號》片段

讓video-SALMONN來談談為什么這段視頻很浪漫吧:

圖片圖片

問題:

請結合視頻,音頻和人物對白解釋為什么視頻很浪漫

回答:

這段視頻展示了一對男女在船上的浪漫場景。男人把女人擁在懷里,兩人一起看著日落。背景音樂是一首歌,增添了浪漫的氣氛。女人說「我在飛」和「杰克」,這表明他們很幸福,享受這一刻。船和日落的背景創造了一個美麗寧靜的環境,增強了視頻的浪漫感覺。男女的肢體語言和面部表情也傳達了他們對彼此的愛和深情。總的來說,這段視頻完美地展現了兩人之間浪漫而親密的時刻。

不止描述看到的場景,video-SALMONN還把聽到的音樂,和人物的對白,都融合進了他的描述里。

更驚喜的是,video-SALMONN還能知道是女人說的「我在飛」,進一步詢問的話,

此外,video-SALMONN還能推理出男人的名字是「杰克」。

我們都知道,正是這兩句對白成就了這個經典場景,而video-SALMONN恰恰抓住了這個場景的精髓所在!

再來一段《瘋狂動物城》的動畫片段:

看看video-SALMONN是怎么理解樹獺的搞笑之處吧:

圖片圖片

問題:

場景中有兔子,狐貍和樹獺,樹獺說了什么?為什么樹獺很有趣?

回答:

樹懶在視頻結尾時說了「Nick」。樹懶之所以搞笑,是因為它是一種動作緩慢的動物,在視頻中表現得非常懶散,做事情花了很長時間。這與其他動物(如兔子和狐貍)的活躍和充滿活力形成了鮮明對比,使樹懶顯得尤為突出,增加了幽默感。此外,視頻中樹懶的慢動作和表情也增加了它的喜劇效果。

這個例子展示了視聽結合對說話人的識別,只有聽覺我們不知道是樹獺在說話,只有視覺我們不知道樹獺說了什么,只有視聽結合才能真正理解視頻!

還有這個非常受歡迎的meme:

,時長00:03

問問video-SALMONN這個視頻為什么搞笑吧:

圖片

問題:

你可以解釋為什么這個視頻很有趣嗎?

回答:

這段視頻之所以有趣,是因為它展示了一個男人做了一個滑稽的表情,然后說「nice」。他嚴肅的表情與「nice」這個詞之間的反差創造了幽默感和驚喜感。此外,男人打嗝的聲音效果和響亮的爆破音也增加了視頻的娛樂價值。

再來看一段國家地理的紀錄片片段,讓我們來看看理解語音還有什么幫助:

問問video-SALMONN視頻里是哪種鯊魚吧:

圖片圖片

問題:

視頻中的鯊魚是哪種鯊魚?

帶audio輸入的回答:

視頻中的鯊魚是一頭鯨鯊

不帶audio輸入的回答:

視頻中的鯊魚是一頭大白鯊

光看視頻,沒點專業知識真的不知道是哪種鯊魚,模型就只能猜,容易出現幻覺。

但是聽了語音講解,video-SALMONN就能準確知道視頻講的是鯨鯊,再也不用瞎猜了。

還有這個大佬之間對話的視頻片段:

不止理解對話內容,video-SALMONN還將說話人和對話內容聯系到了一起:

圖片

提問:

基于視頻和語音,是視頻中飛去了Florence的是男人還是女人?

回答:

是女人飛去了Florence

這個例子進一步展示了video-SALMONN對視頻里語音的全方位理解。

如果直接輸入語音轉錄的文字,模型是不可能知道到底是誰飛去了Florence,而video-SALMONN可以將語音內容和說話人信息緊密結合在一起

接下來是干貨部分:讓我們一起來看看video-SALMONN具體是怎么實現語音-音頻-視頻的綜合理解的吧!

核心技術

圖片圖片

video-SALMONN模型

面對音視頻大模型中語音理解挑戰,video-SALMONN通過以下三部分創新,使其能夠處理自然圖像、視覺幀序列、語音、音頻事件和音樂元素等各種視頻基本元素:

第一部分:音視頻編碼和時間對齊

video- SALMONN使用Whisper語音編碼器和BEATs音頻編碼器,分別得到語音和音頻的編碼向量序列(每1秒音頻對應50個向量),同時使用InstructBLIP視覺編碼器,以2 FPS的視頻采樣率得到視覺編碼向量序列(每1秒視頻2幀,對應64個向量)。

三個序列在時間維度上,以視頻幀為基準每0.5秒對齊并拼接一次(temporal fine-grained synchronisation),因為語音音頻序列略短于視覺序列,短的部分加上zero padding。

第二部分:多分辨率因果Q-Former

多分辨率因果(MRC)Q-Former結構是video-SALMONN的創新核心,它不僅在多個不同的時間尺度上將時間同步的視聽輸入特征與文本表示空間對齊,滿足依賴于不同視頻元素的任務需求,同時為了加強連續視頻幀之間事件的時間因果關系,引入了帶有特殊因果掩碼的因果自注意結構。

MRC  Q-Former結構MRC Q-Former結構


首先,MRC Q-Former將輸入序列分成不同長度的窗。然后,在每一個窗內,用Q-Former把拼接后的多模態表征映射到語義表征空間。最后,將每個分辨率層級內的各個窗Q-Former輸出的向量串起來形成語義空間的向量序列。

MRC Q-Former通過保證輸出向量個數和窗長比為定值,來保證不同分辨率層級的輸出序列可以直接在特征維度拼接,拼接后的向量通過線性層映射后用作大語言模型的輸入。

通過訓練,高分辨率的Q-Former可以捕捉細粒度的信息,比如語音內容以及語音和唇部動作的聯系,低分辨率的Q-Former可以有效提取視頻層級的信息,對視頻的整體內容以及多個幀之間的關系有更好的理解。

(注:MRC Q-Former結構也適用于空間上的多分辨率,論文首次提出image spotlight方法,可以將圖片拆分成不同精度的子圖序列作為輸入,從而大大提高圖像理解的性能)

第三部分:多樣性損失函數和混合未配對音視頻數據的訓練

此外,為了避免視頻中某一特定幀主導地位,video-SALMONN在交叉熵的基礎上,提出并使用了一種新的多樣性損失函數,鼓勵模型探索整個序列的不同部分。

同時,為了防止配對音視頻數據中的單一模態的主導問題(比如視頻中非語音音頻往往只提供極少量的輔助信息,容易被忽視),video-SALMONN使用混合未配對的音頻和視頻的策略進行訓練,使video-SALMONN不得不同時注意兩個模態的信息。

主要結果

Video-SALMONN論文提出speech-audio-visual  evaluation (SAVE) benchmark來測試,并在語音,非語音音頻,圖像和視頻等任務上均展示了不俗的表現。

SAVE的測試任務包括語音識別 (ASR),音頻描述  (AAC),圖片描述 (IC),視覺文字識別 (OCR),圖片問答 (VQA),視頻問答 (Video QA) 等視覺和聽覺單一輸入模態的任務,還包括視聽語音識別  (AVSR),音視頻問答 (AVQA),音視頻聲源檢測 (AVSSD)和音視頻匹配  (AVM)四個音視頻共同輸入的感知任務。

其中,AVQA為新提出的測試集,AVM為新提出的任務,要求模型判斷音頻和視頻是否匹配。

圖片圖片

首先,video-SALMONN在單一模態輸入的任務上,達到了和僅能處理視覺或聽覺一種模態輸入的模型相同甚至更好的效果。

相比同樣可以處理音視頻的大模型Video-LLaMA,video-SALMONN不僅增加了對語音輸入的理解能力,而且在各個單模態任務上遠超其表現。

圖片圖片

在音視頻共同輸入的理解任務上,video-SALMONN更是展現了遠超其他模型的表現。

得益于其理解語音的能力,video-SALMONN在AVQA上大幅超過同類大模型Video-LLaMA。

更重要的是,在AVM和AVSSD這兩個完全沒有訓練過的任務上,video-SALMONN展現了出色的語音-音頻-視覺聯合推理的零樣本的涌現能力。

圖片圖片

這些共同推理的涌現能力需要模型同時給予輸入的視覺和聽覺信息等量的關注,且可以理解視聽之間復雜的聯系。

然而現存的開源模型,要么無法完全理解音頻,要么僅能分別描述每個單一的輸入模態。

結語

video-SALMONN的推出,將有助于提升視頻理解技術的全面性和準確性,為視頻內容分析、情感識別、多模態交互等領域帶來新的機遇。

該模型不僅在學術研究上具有重要意義,也為實際應用提供了強大的技術支撐。

參考資料:

https://openreview.net/pdf?id=nYsh5GFIqX

責任編輯:武曉燕 來源: 新智元
相關推薦

2021-06-28 05:19:32

抖音電腦

2020-10-13 15:20:25

微信短視頻PK抖音

2023-02-27 22:41:44

Python水印短視頻

2024-05-16 12:48:12

數據AI

2023-03-12 21:28:36

AI工具

2023-11-20 22:02:54

開源模型

2024-04-03 12:37:13

模型數據

2022-01-22 07:44:12

抖音PC 版電腦刷抖音

2025-07-09 08:55:39

2022-07-12 10:37:08

阿里巴巴達摩院機器學習

2019-06-21 09:55:10

刷抖美腿App

2025-11-04 09:00:00

2018-05-31 21:11:24

短視頻抖音快手

2024-10-30 15:00:00

AI視頻模型

2025-09-23 09:20:05

2020-10-27 09:33:39

抖音印度移動應用

2024-03-25 12:40:19

訓練模型
點贊
收藏

51CTO技術棧公眾號

青青草在线播放| 人妻互换一区二区激情偷拍| 在线中文字幕-区二区三区四区| 羞羞色午夜精品一区二区三区| 欧美裸体bbwbbwbbw| 国产精品美女在线播放| www.97超碰| 樱桃成人精品视频在线播放| 日韩禁在线播放| 久久久免费视频网站| 第三区美女视频在线| 久久精品999| 精品国产一区二区三区久久| 精产国品一区二区三区| 丁香花在线高清完整版视频| 91麻豆国产自产在线观看| 国产成人在线视频| 一区二区三区在线播放视频| 久久伊人精品| 欧美日韩视频免费播放| 日韩福利一区二区三区| 国产精品亚洲欧美在线播放| 亚洲无吗在线| 亚洲欧美国产精品专区久久| 国产精品区在线| 黄色网页在线看| 成人的网站免费观看| 国产精品av在线| 2019男人天堂| 伊人久久大香线蕉av超碰| 日韩欧美国产一区二区| 中文字幕色一区二区| 日本美女一级视频| 老牛影视一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 男人网站在线观看| 天天综合网站| 亚洲一区二区视频在线| 欧美在线激情| 亚洲女人18毛片水真多| 日韩高清不卡在线| 国内精品久久久久久| av免费播放网站| 高潮按摩久久久久久av免费| 欧美天天综合网| 91九色丨porny丨国产jk| 国产高清一区在线观看| 不卡av电影在线播放| 国产免费久久av| 久久一区二区三区视频| 中文精品久久| 一区二区av在线| 国产激情视频网站| 精品亚洲a∨一区二区三区18| 色婷婷狠狠综合| 小说区视频区图片区| 日本中文字幕电影在线观看| 国产.欧美.日韩| 成人在线中文字幕| 最近免费中文字幕大全免费版视频| 欧美日韩精品免费观看视频完整| 中文字幕精品视频| 国产又爽又黄无码无遮挡在线观看| 国产一区二区三区免费在线 | 精品电影在线观看| 中国黄色录像片| 免费在线观看黄色| 亚洲国产精品精华液2区45| 狠狠色噜噜狠狠色综合久 | 91国产免费看| 精品99在线视频| 在线视频cao| 婷婷一区二区三区| 日本一区午夜艳熟免费| 日本在线视频网址| 亚洲黄色免费网站| 欧美 国产 精品| 国产在线观看av| 国产精品久久久久影院| 水蜜桃一区二区| 少妇一区二区三区四区| 99久久久免费精品国产一区二区 | 草草草视频在线观看| 在线网址91| 一级日本不卡的影视| 国产91在线亚洲| 欧美人与性动交α欧美精品济南到 | 加勒比在线一区| 日韩精品成人一区二区在线| 日韩av片永久免费网站| 波多野结衣 久久| 日韩精品高清不卡| 国产日韩欧美在线| 国产乱人乱偷精品视频a人人澡 | 欧美亚洲在线视频| 久久国产视频精品| 日日摸夜夜添夜夜添国产精品| 国产盗摄xxxx视频xxx69| 中文字幕1区2区3区| 老牛国产精品一区的观看方式 | 色偷偷偷在线视频播放| 欧美性猛交xxxxx水多| 国产一区亚洲二区三区| 欧美美女日韩| 欧美日韩国产综合久久| 图片区乱熟图片区亚洲| 日本成人手机在线| 精品五月天久久| 国精产品视频一二二区| 亚洲天天综合| 国内精品久久久久久| 中国一级特黄毛片| 日本午夜一区二区| 亚洲影影院av| 亚洲欧美日韩动漫| 国产精品久久久久久久久久免费看| 欧美少妇一区二区三区| 在线观看涩涩| 欧美一级在线视频| www.久久国产| 婷婷亚洲最大| 97视频在线免费观看| 亚洲综合视频在线播放| 99久久精品国产毛片| 亚洲电影一二三区| free性欧美| 欧美日韩亚洲综合在线 | 久久99视频| 久久精品国产清自在天天线 | 亚洲精品怡红院| 日韩精品成人在线观看| 亚洲欧美日韩国产中文| 久久免费看少妇高潮v片特黄| 99pao成人国产永久免费视频| 国产精品久久久久福利| 黄频在线免费观看| 国产精品午夜春色av| 日韩一级性生活片| 日韩成人一区| 亚洲第一国产精品| 欧美老女人性生活视频| 亚洲精品免费观看| 91久久国产综合久久91精品网站 | 国产中文字幕一区| 欧美日韩国产精品一卡| 免费在线国产视频| 欧美精品在线观看一区二区| 亚洲一区二区三区蜜桃| 伊人色**天天综合婷婷| 国产精品国内视频| 亚洲 小说区 图片区 都市| 亚洲女人小视频在线观看| 天天影视综合色| 亚洲+小说+欧美+激情+另类| 欧美精品久久久久久久久| 国产精品日韩无码| 国产精品久久久久影院亚瑟| 爱情岛论坛vip永久入口| 婷婷国产精品| 久久男人资源视频| 午夜精品在线播放| 亚洲色图欧洲色图| 国产天堂在线播放| 精品视频在线你懂得| 欧美大码xxxx| 国产又黄又粗又长| 国产精品国产自产拍在线| 日本男人操女人| 亚洲伊人春色| 日本久久久久久久久| 色一情一乱一乱一区91av| 亚洲国产日韩一区二区| 色欲无码人妻久久精品| 在线国产一区| 69堂成人精品视频免费| 免费人成在线观看播放视频| 欧美视频你懂的| 俄罗斯毛片基地| 美腿丝袜亚洲三区| 宅男av一区二区三区| 免费视频成人| 久久精品小视频| 国产精品欧美亚洲| 亚洲人成网站在线| 又黄又爽又色的视频| 欧美女激情福利| 国产日本一区二区三区| 激情国产在线| 亚洲第一偷拍网| 可以免费看的av毛片| 久久久国际精品| 狠狠热免费视频| 日本电影一区二区| 国产日韩在线免费| 99在线播放| 精品国产伦一区二区三区免费| 九九九国产视频| 91免费视频网址| 一本久道中文无码字幕av| 成人在线亚洲| 国产欧美韩国高清| 午夜成年人在线免费视频| 精品国产三级电影在线观看| 四虎成人精品永久免费av| 91免费精品国自产拍在线不卡| 北条麻妃在线视频| 91精品综合| 国产一区精品在线| 成人亚洲视频| 欧美高清性猛交| 日本国产在线观看| 欧美色综合天天久久综合精品| 精品国产乱码久久久久久鸭王1| 不卡视频一二三四| 青青青免费在线| 青草国产精品| 国产精品嫩草在线观看| 日韩精品一区二区三区| 久久电影一区二区| 三级无遮挡在线观看| 欧美群妇大交群的观看方式| 日韩精品视频免费播放| 国产精品久久久爽爽爽麻豆色哟哟 | 操人视频免费看| 黄色欧美成人| 色综合久久av| 国产ts一区| 成人免费福利在线| videos性欧美另类高清| 欧美成人中文字幕在线| 牛牛澡牛牛爽一区二区| 日韩精品一区二区在线| 无码人妻精品一区二区三区不卡| 国产精品网站在线观看| 日韩少妇一区二区| 免费一级欧美片在线观看| www.好吊操| 91精品国产91久久久久久密臀| 久久偷窥视频| 成人在线视频中文字幕| 成人国产在线视频| 六月婷婷综合| 久久免费观看视频| 免费大片黄在线观看视频网站| 亚洲国产91色在线| av网站免费大全| 欧美日本乱大交xxxxx| 久久亚洲精品石原莉奈| 岛国av一区二区三区| 青娱乐免费在线视频| 亚洲欧洲99久久| 国产综合精品久久久久成人av| 99久久精品国产观看| 国产乱国产乱老熟300部视频| 秋霞影院一区二区| 欧美一级片中文字幕| 在线成人黄色| 800av在线免费观看| 天天超碰亚洲| 日韩在线三级| 韩日一区二区三区| 欧美日韩在线精品| 亚洲精品蜜桃乱晃| 精品高清视频| 乱中年女人伦av一区二区| 国产精品theporn88| 99ri日韩精品视频| 成人免费视频网站| 91成人精品在线| 成人欧美一区二区三区在线观看| 亚洲大奶少妇| 91中文在线视频| 91亚洲视频| 国产精品pans私拍| 欧美日韩五码| 国产精品www网站| 日韩中文影院| 国产欧美va欧美va香蕉在| 亚洲美女色播| 7777精品久久久大香线蕉小说| 国产在线一区不卡| 91亚洲精品久久久| 一区二区三区视频播放| 国产主播一区二区三区四区| 欧美黑人巨大videos精品| 老司机精品福利在线观看| 国产精品一区高清| 色综合久久久久久久久五月| 天天影视天天精品| 亚洲中文字幕无码一区二区三区| 亚洲高清成人| 日本黄网站免费| 免费看欧美女人艹b| 天堂中文av在线| 国产高清不卡一区| 老熟妇精品一区二区三区| 久久免费偷拍视频| 国产三级精品三级观看| 一区二区在线观看不卡| 国产一级片网址| 91激情在线视频| 国产又黄又粗又猛又爽| 亚洲变态欧美另类捆绑| 欧美香蕉爽爽人人爽| 日日骚久久av| 欧美亚洲系列| 国产成人一区二区三区| 欧美区一区二区| av一区二区在线看| 婷婷综合电影| 人人妻人人澡人人爽精品欧美一区| 国产一区日韩欧美| 久久久久久久久久久久久久国产| 久久精品一区| 中文字幕一二三区| 久久久久久黄色| 欧美爱爱小视频| 色综合色狠狠天天综合色| 怡红院av久久久久久久| 日韩欧美国产高清| 国产精品一二三区视频| 欧美激情精品久久久久| 久久久国产精品网站| 91免费看网站| 美女毛片一区二区三区四区最新中文字幕亚洲 | 五月天婷婷导航| 日韩一区二区三区观看| 欧美午夜黄色| 欧美成人精品xxx| 欧美黑人疯狂性受xxxxx野外| 亚洲自拍中文字幕| 精品一二三区| 久久这里只有精品23| 日日夜夜免费精品| 欧美69精品久久久久久不卡| 久久精品夜夜夜夜久久| 久久精品无码人妻| 欧美久久久影院| 精品乱码一区二区三四区视频| 欧美猛交免费看| 日韩av懂色| 日韩精品无码一区二区三区| 午夜电影亚洲| 亚洲小视频网站| 国产日韩欧美在线一区| 国内免费精品视频| 日韩欧美国产精品一区| 高清免费电影在线观看| 国产精品成熟老女人| 日韩欧美久久| 日本一区高清不卡| 最新精品国偷自产在线| 黄色激情在线视频| 国产a久久麻豆| 五月天婷婷丁香| 日韩精品免费在线观看| 日韩大片欧美大片| 午夜精品区一区二区三| 美女一区二区三区| 人人艹在线视频| 91精品国产综合久久国产大片| caopo在线| 国产精品一区二区三区精品| 99国产精品视频免费观看一公开| 成人精品在线观看视频| 在线观看三级视频欧美| yes4444视频在线观看| 91久久精品国产| 在线日韩中文| 三级网站在线免费观看| 在线观看成人小视频| 国内精品久久久久国产| 国产一级精品aaaaa看| 免费精品视频| 国产精品麻豆免费版现看视频| 91精品国产欧美一区二区| 成人免费高清观看| 欧美重口乱码一区二区| 极品美女销魂一区二区三区免费| 欧美黄色一级网站| 亚洲毛片在线免费观看| av成人免费看| 精品人妻大屁股白浆无码| 91麻豆123| 97在线视频人妻无码| 久久久久久久久久久久久久久久久久av | 一区二区三区四区中文字幕| 欧性猛交ⅹxxx乱大交| 情事1991在线| 91综合久久一区二区| 农村末发育av片一区二区 | 91麻豆视频在线观看| 久久久亚洲精品视频| 精品国产一区二区三区噜噜噜| 初高中福利视频网站| 一本大道久久a久久精二百| 国产淫片在线观看| 免费av在线一区二区| 国产一区二区电影| 黄色污污网站在线观看|