精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合

發布于 2025-6-29 23:17
瀏覽
0收藏

Stream-Omni 是中國科學院計算技術研究所、中國科學院人工智能安全重點實驗室及中國科學院大學聯合推出的類似 GPT-4o 的大型語言-視覺-語音模型,能夠同時支持文本、圖像和語音等多種模態的交互。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

一、項目概述?

Stream-Omni 是一個基于大型語言模型(LLM)的多模態交互模型,能夠同時處理文本、圖像和語音三種模態的輸入,并生成相應的文本和語音輸出。該模型通過序列維度拼接和層維度映射的方式,實現了視覺與文本的對齊,以及語音與文本的對齊,從而在視覺理解、語音交互和視覺引導的語音交互任務上表現出色。Stream-Omni 的訓練僅需少量全模態數據,訓練效率高,適合在資源有限的環境中部署。

二、技術原理

1. 基于 LLM 的骨干架構

Stream-Omni 的核心是基于大型語言模型(LLM)的骨干架構。LLM 作為模型的核心,提供了強大的語言理解和生成能力,為多模態交互提供了基礎支持。通過將 LLM 與視覺和語音模態進行對齊,Stream-Omni 實現了跨模態的交互能力。

2. 視覺文本對齊

為了實現視覺與文本的對齊,Stream-Omni 使用序列維度拼接的方式,將視覺編碼器提取的視覺特征與文本輸入進行拼接,再共同輸入到 LLM 中,實現視覺和文本模態的對齊。這種方式使得模型能夠更好地理解圖像內容,并生成與之相關的文本信息。

3. 語音文本對齊

對于語音與文本的對齊,Stream-Omni 引入了基于 CTC(Connectionist Temporal Classification)的層維度映射。在 LLM 的底部和頂部添加語音層,實現語音到文本的映射和文本到語音的生成,從而將語音模態與文本模態對齊。這種對齊方式使得模型能夠在語音交互過程中實時生成語音輸出,提供流暢的交互體驗。

4. 多任務學習

Stream-Omni 采用多任務學習策略,同時訓練視覺文本、語音文本及全模態(視覺+文本+語音)的任務,讓模型更好地理解和生成多模態內容。這種策略不僅提高了模型的泛化能力,還增強了其在不同任務上的適應性。

5. 實時語音生成

基于特殊的語音層設計和層維度映射,Stream-Omni 在生成文本的同時,實時生成對應的語音輸出,實現流暢的語音交互。這種能力使得用戶在語音交互過程中能夠同時看到文本和聽到語音,從而獲得更全面的交互體驗。

6. 數據驅動與監督學習結合

Stream-Omni 依賴少量多模態數據進行訓練,基于精心設計的對齊機制和多任務學習,能在有限的數據上實現高效的模態對齊和交互能力。這種設計使得模型在數據稀缺的情況下仍能保持良好的性能。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

三、主要功能

1. 多模態輸入與輸出

Stream-Omni 支持文本、圖像和語音等多種模態的輸入,并能同時生成文本和語音輸出。這種能力使得模型能夠處理復雜的多模態交互任務,滿足不同場景下的需求。

2. 無縫“邊聽邊看”體驗

在語音交互過程中,Stream-Omni 能實時輸出中間文本結果(如自動語音識別 ASR 轉錄和模型響應),為用戶提供更豐富的交互體驗。這種無縫的交互體驗類似于 GPT-4o 的高級語音服務,提升了用戶的交互滿意度。

3. 高效訓練

Stream-Omni 僅需少量全模態數據(如 23000 小時語音數據)進行訓練,對數據需求量小,訓練效率高。這種高效訓練能力使得模型能夠在資源有限的環境中快速部署和使用。

4. 靈活的交互模式

Stream-Omni 支持多種模態組合的交互,包括文本+視覺→文本、文本+視覺→語音、語音+視覺→文本、語音+視覺→語音等,滿足不同場景下的交互需求。這種靈活性使得模型能夠適應各種應用場景,提高其適用性。

5. 視覺理解與語音交互

Stream-Omni 在視覺理解任務和語音交互任務上表現出色,能準確理解和生成與視覺內容相關的文本和語音信息。這種能力使得模型在智能車載系統、教育輔助工具、智能家居控制、醫療輔助診斷和智能客服服務等多個領域具有廣泛的應用前景。

四、評測結果

1. 視覺理解能力

在多個視覺理解基準測試中,Stream-Omni 表現出色。例如,在 VQA-v2、GQA、VizWiz、ScienceQA-IMG、TextVQA、POPE、MME、MMBench、SEED-Bench 和 LLaVA-Bench-in-the-Wild 等基準測試中,Stream-Omni 的性能接近或超越了最先進的視覺導向 LMMs,如 LLaVA、BLIP-2、InstructBLIP、Qwen-VL、SPHINX 和 mPLUG-Owl2 等。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

2. 語音交互能力

在語音交互任務中,Stream-Omni 也表現出色。在 Llama Questions 和 Web Questions 等基準測試中,Stream-Omni 的準確率分別為 76.3% 和 65.0%,在語音到文本(S→T)和語音到語音(S→S)任務中均優于其他模型。此外,Stream-Omni 在語音識別任務中的 WER(Word Error Rate)也優于其他模型,如 Whisper、SpeechGPT、Moshi、Mini-Omni、Freeze-Omni 和 GLM-4-Voice 等。

3. 視覺引導的語音交互能力

在視覺引導的語音交互任務中,Stream-Omni 也表現出色。在 SpokenVisIT 基準測試中,Stream-Omni 的評分分別為 3.93 分(視覺+文本→文本)和 3.68 分(視覺+語音→文本),在語音生成任務中也表現出色。這種能力使得模型在真實世界中能夠更好地理解和生成語音信息。

4. 語音-文本映射質量

在語音-文本映射任務中,Stream-Omni 的表現也優于其他模型。在 LibriSpeech 基準測試中,Stream-Omni 的 WER 為 3.0%,在語音識別任務中的推理時間也優于其他模型。這種高質量的映射能力使得模型在語音交互任務中能夠提供更準確的語音輸出。

五、應用場景

1. 智能車載系統

在智能車載系統中,司機可以通過語音指令查詢路線、獲取路況,系統結合視覺信息(如導航地圖、路況攝像頭圖像)實時顯示文本提示和語音反饋,提升駕駛安全性和交互效率。

2. 教育輔助工具

在教育場景中,學生可以通過語音提問,系統依據教材視覺內容(如圖表、圖片)給出詳細文本解釋和語音回答,幫助學生更好地理解和學習知識。

3. 智能家居控制

作為智能家居助手,用戶可以通過語音指令控制家電設備,系統結合視覺輸入(如攝像頭捕捉的環境信息)提供文本或語音反饋,實現更智能、便捷的家居控制。

4. 醫療輔助診斷

在醫療場景中,醫生可以通過語音指令查詢關鍵信息,系統結合視覺報告(如X 光片、CT 圖像)提供詳細的文本分析和語音解釋,輔助醫生更準確地做出診斷。

5. 智能客服服務

在客服領域,客服人員可以通過語音與客戶交流,系統實時顯示相關文本信息和視覺提示(如產品圖片、操作流程圖),幫助客服人員快速理解客戶需求并提供準確解答,提升服務質量和效率。

六、快速使用

1. 模型下載

1)從這里下載 Stream-Omni 模型,放入 ${STREAMOMNI_CKPT} 。

https://huggingface.co/ICTNLP/stream-omni-8b

2)從這里下載 CosyVoice(分詞器 & 流模型),放入 COSYVOICE_CKPT=./CosyVoice-300M-25Hz :

https://modelscope.cn/models/iic/CosyVoice-300M-25Hz/files

2. 安裝依賴

conda create -n streamomni pythnotallow=3.10 -y
conda activate streamomni
pip install -e .
pip install flash-attn --no-build-isolation
pip install -r requirements.txt
pip install -r CosyVoice/requirements.txt

3. 命令交互

運行這些腳本以進行基于視覺的語音交互:

export CUDA_VISIBLE_DEVICES=0
export PYTHONPATH=CosyVoice/third_party/Matcha-TTS
STREAMOMNI_CKPT=path_to_stream-omni-8b
# Replace the path of cosyvoice model in run_stream_omni.py (e.g., cosyvoice = CosyVoiceModel('./CosyVoice-300M-25Hz')) 
# add --load-8bit for VRAM lower than 32GB 
python ./stream_omni/eval/run_stream_omni.py \
--model-path ${STREAMOMNI_CKPT} \
--image-file ./stream_omni/serve/examples/cat.jpg --conv-mode stream_omni_llama_3_1 --model-name stream-omni  \
--query ./stream_omni/serve/examples/cat_color.wav

你應該得到以下輸出:

ASR Outputs:
What is the color of the cat
LLM Outputs:
The cat is gray and black.
Speech Tokens:
<Audio_2164><Audio_2247><Audio_671><Audio_246><Audio_2172><Audio_1406><Audio_119><Audio_203><Audio_2858><Audio_2099><Audio_1716><Audio_22><Audio_1736><Audio_1038><Audio_4082><Audio_1655><Audio_2409><Audio_2104><Audio_571><Audio_2255><Audio_73><Audio_760><Audio_822><Audio_701><Audio_2583><Audio_1038><Audio_2203><Audio_1185><Audio_2103><Audio_1718><Audio_2610><Audio_1883><Audio_16><Audio_792><Audio_8><Audio_8><Audio_535><Audio_67>
Speech Outputs:
Audio saved at ./output_893af1597afe2551d76c37a75c813b16.wav

七、結語

Stream-Omni 是一個強大的多模態交互模型,能夠同時處理文本、圖像和語音等多種模態的輸入,并生成相應的文本和語音輸出。其靈活的交互模式、高效的訓練策略和廣泛的應用場景,使其在智能車載系統、教育輔助工具、智能家居控制、醫療輔助診斷和智能客服服務等多個領域具有廣泛的應用前景。

項目資料

論文地址:https://arxiv.org/pdf/2506.13642

GitHub倉庫:?https://github.com/ictnlp/Stream-Omni

本文轉載自?????小兵的AI視界?????,作者:AGI小兵

收藏
回復
舉報
回復
相關推薦
欧美日韩一区二区不卡| 国产v日产∨综合v精品视频| 亚洲人在线视频| 男女视频一区二区三区| 9191在线观看| 国产麻豆9l精品三级站| 欧美日韩国产一中文字不卡 | 国精品人妻无码一区二区三区喝尿| 91久久中文| 中文字幕av一区二区三区谷原希美| 亚洲一级片av| 天堂网在线最新版www中文网| 日本一区二区成人在线| 高清国语自产拍免费一区二区三区| 好看的av在线| 综合在线视频| 亚洲日韩第一页| 野花视频免费在线观看| 欧美日韩视频网站| 亚洲资源中文字幕| 亚洲精品视频一二三| 国产成人av免费看| 日本三级亚洲精品| 午夜精品理论片| 午夜三级在线观看| 亚洲人成网亚洲欧洲无码| 欧美一区二区三区视频免费| 国产日韩一区二区在线观看| 羞羞网站在线看| 中文字幕乱码一区二区免费| 国产精品午夜av在线| 97国产成人无码精品久久久| 久久精品人人做人人爽电影蜜月| 欧美大片免费看| jizzjizzjizz国产| 精品国产99| 亚洲精品国产美女| 中文在线字幕观看| 91嫩草国产线观看亚洲一区二区| 在线观看日韩毛片| 黄在线观看网站| 大桥未久在线播放| 亚洲免费在线播放| 亚洲日本理论电影| 成人性生交大片免费看午夜| 91免费在线视频观看| 亚洲一区二区日本| 亚洲啪啪av| 国产小视频在线观看免费| 日韩影院二区| 亚洲视屏在线播放| 亚洲乱码国产乱码精品精大量| 在这里有精品| 这里只有精品电影| 日韩在线一区视频| 日韩av懂色| 欧美日韩亚洲另类| 超碰在线公开97| 狠狠久久伊人中文字幕| 欧美性生活久久| 黄色成人免费看| 国产日韩另类视频一区| 91久久免费观看| 免费男同深夜夜行网站 | 亚洲综合色网站| 久久在线中文字幕| 91九色在线播放| 欧美日韩国产综合视频在线观看中文| 国产日韩欧美精品在线观看| 黄色影院在线看| 亚洲va韩国va欧美va| 日韩av三级在线| 成人自拍av| 欧美色涩在线第一页| 国产视频1区2区3区| 日韩免费在线电影| 日韩精品在线一区二区| 美女露出粉嫩尿囗让男人桶| 欧美a级网站| 亚洲一区二区国产| 顶级黑人搡bbw搡bbbb搡| 羞羞答答成人影院www| 欧美大学生性色视频| 日韩免费黄色片| 天堂av在线一区| 国产精品中文字幕在线| 精品国产伦一区二区三区| 岛国精品一区二区| 欧美午夜视频在线| 国产在线1区| 免费电影视频在线看| 2023国产一二三区日本精品2022| 欧美一区三区二区在线观看| 麻豆tv入口在线看| 亚洲第一福利一区| 亚洲中文字幕久久精品无码喷水| 亚洲福利影视| 精品成a人在线观看| 国产亚洲色婷婷久久99精品91| 国内精品久久久久久久影视简单 | 97超碰人人看人人| 色网站在线免费观看| 国产精品国产馆在线真实露脸| 中文字幕人妻熟女人妻洋洋| 日韩电影大全网站| 日韩三级高清在线| 国产一二三四五区| 国精品一区二区三区| 国产精品国产三级国产aⅴ9色| 国产精品探花视频| 94色蜜桃网一区二区三区| 亚洲一区在线免费| 成人一级福利| 欧美精品自拍偷拍| 国产三级国产精品| 欧美精品一卡| 国产美女搞久久| 亚洲 小说区 图片区 都市| 国产精品盗摄一区二区三区| 少妇高潮毛片色欲ava片| 亚洲爽爆av| 亚洲欧洲日本专区| 亚洲一区二区91| 蜜桃久久久久久久| 蜜桃视频在线观看成人| 男人天堂亚洲| 91精品国产综合久久久久久久 | 天天摸天天碰天天添| 97色成人综合网站| 久久亚洲精品一区二区| 久久久999久久久| 99re在线视频这里只有精品| 亚洲图片欧美激情| 伊人色综合久久天天五月婷| www.精品| 亚洲国产中文字幕久久网| 美女福利视频在线观看| 久久精品99久久久| 日本欧美精品久久久| segui88久久综合9999| 日韩女优av电影| 尤物在线免费视频| 捆绑调教一区二区三区| 天堂va久久久噜噜噜久久va| 欧美亚洲韩国| 国产午夜精品全部视频播放| 天天操天天操天天操天天| 99久久久国产精品免费蜜臀| 国产精品无码电影在线观看| 欧美片网站免费| 久久五月情影视| 99草在线视频| 亚洲免费高清视频在线| 国产大片一区二区三区| 中文字幕午夜精品一区二区三区| 91精品国产综合久久久久久久久| 在线国产91| 3atv一区二区三区| 欧美三级小视频| 国产成人丝袜美腿| 免费看欧美一级片| 日韩黄色网络| 日韩美女视频中文字幕| 国产精品久久一区二区三区不卡| 日本乱人伦一区| 亚洲色图第四色| 精品无人码麻豆乱码1区2区| 福利网在线观看| 91精品日本| 午夜精品一区二区三区在线视频 | 一道精品一区二区三区| 韩国精品视频在线观看| 久久久国产精品亚洲一区| 成 人 黄 色 片 在线播放| 亚洲国产成人av网| 天堂久久久久久| 日韩电影一区二区三区四区| 亚洲一卡二卡| 欧美高清一级片| 久久人人爽人人爽人人片av高请| 五月天色一区| 中文日产幕无线码一区二区| 亚洲视频在线播放| 91精品国产乱码久久| 亚洲精品国产成人久久av盗摄| 手机免费看av片| 香蕉久久国产| 男同互操gay射视频在线看| 91蜜桃臀久久一区二区| 欧美在线视频网| 91激情在线| 精品国产123| 波多野结衣理论片| 一区二区三区日本| 美女又爽又黄视频毛茸茸| 麻豆成人综合网| 成人网站免费观看入口| 成人动漫免费在线观看| 成人黄色在线免费观看| 欧美大片免费高清观看| 久久国产一区二区三区| 青青青免费视频在线2| 欧美日本在线看| 天天干天天干天天干天天| 国产精品久久久久久久久免费樱桃| 精产国品一二三区| 免费日韩一区二区| 中国女人做爰视频| 精品国产中文字幕第一页 | 国产精品毛片视频| 国产精品永久在线| 自拍网站在线观看| 精品自拍视频在线观看| 国产中文字幕在线看| 精品人伦一区二区色婷婷| 夜夜躁狠狠躁日日躁av| 精品女厕一区二区三区| 国产免费久久久久| 久久久久久亚洲综合影院红桃| 男人添女人荫蒂国产| 美女爽到高潮91| 成人黄色片视频| 亚洲午夜极品| 天堂v在线视频| 欧美日韩国产免费观看视频| 狠狠色狠狠色综合人人| 欧美视频二区欧美影视| 国产精品日韩电影| 国产精品迅雷| 欧美性受xxxx白人性爽| tube8在线hd| 色综合久久精品亚洲国产| h视频在线播放| 精品免费在线| 成人片在线免费看| 久久伊人影院| 92看片淫黄大片欧美看国产片| 精品视频一区二区三区四区五区| 2019中文字幕在线| av蜜臀在线| 午夜精品在线观看| 波多野结衣乳巨码无在线观看| 欧美大片免费看| 亚洲性图自拍| 欧美激情亚洲国产| 美洲精品一卡2卡三卡4卡四卡| 大胆欧美人体视频| 欧美jizz18性欧美| 久久精品中文字幕| 国产秀色在线www免费观看| 久久精品国产99国产精品澳门| 在线观看国产原创自拍视频| 在线观看91久久久久久| 91视频在线观看| 中文字幕亚洲欧美| 免费看美女视频在线网站| 久久精品夜夜夜夜夜久久| 国产精品扒开做爽爽爽的视频 | 欧美黄色一级生活片| 国产调教视频一区| 人与嘼交av免费| 国产精品国产三级国产普通话99 | 亚洲欧美丝袜中文综合| 日韩精品免费视频| 日批视频免费播放| 精品香蕉一区二区三区| 色播色播色播色播色播在线| 精品视频偷偷看在线观看| 高h视频在线| 日韩一区在线视频| 亚洲区欧洲区| 91国偷自产一区二区三区的观看方式 | 91在线观看污| 韩国女同性做爰三级| 国产精品护士白丝一区av| 538精品在线观看| 午夜精品成人在线| 国产精品suv一区| 欧美日韩午夜精品| av在线亚洲天堂| 亚洲国产精品va在看黑人| 国产在线一二三| 精品国产一区二区三区在线观看| 91在线中字| 欧美一二三视频| 美国黄色小视频| 日本一区二区三区四区| 日韩va亚洲va欧美va清高| 午夜精品国产更新| 中文字幕乱码人妻二区三区| 91精品黄色片免费大全| 偷拍25位美女撒尿视频在线观看| 中文字幕日韩欧美在线| 波多野结衣中文在线| 国产精品久久久久久久久| 欧美欧美在线| 日韩欧美手机在线| 国产精品二区影院| 国产一级做a爰片久久| 风间由美一区二区三区在线观看| 美女脱光内衣内裤| 亚洲激情成人在线| 四虎成人在线观看| 欧美一级高清片在线观看| 日韩av免费观影| 欧美成人免费全部观看天天性色| 极品美女一区| 国产精品区一区| 久久一区二区中文字幕| 男人添女人下部高潮视频在观看| 蜜乳av一区二区| 久久久久亚洲av无码专区桃色| 亚洲开心激情| 亚洲精品女av网站| 成人区精品一区二区婷婷| 国产精品成人久久电影| 久久www免费人成看片高清| 在线免费观看污视频| 亚洲精品免费电影| 亚洲综合网av| 国产亚洲一级高清| 国产直播在线| 成人羞羞视频免费| 91精品一区国产高清在线gif| 狠狠操精品视频| www久久精品| 中文字幕在线字幕中文| 日韩午夜电影在线观看| 视频一区二区三区不卡| 日韩av不卡电影| 日韩有码中文字幕在线| 一卡二卡三卡视频| 国产乱码精品一区二区三| 欧美肥妇bbwbbw| 欧美日韩国产一级| 在线观看免费黄视频| 国产精品免费久久久| 欧美三级伦理在线| 亚洲爆乳无码专区| 久久久久久久性| 亚洲熟妇无码乱子av电影| 亚洲免费精彩视频| 伊人久久综合一区二区| 欧美日韩另类丝袜其他| 久久精品午夜| 人妻视频一区二区| 欧洲一区二区三区在线| 国产福利在线观看| 国产精品三级网站| 色呦哟—国产精品| www.成人黄色| 久久欧美肥婆一二区| 成人毛片网站| 欧美好骚综合网| 狠狠干狠狠操视频| 亚洲欧美国产77777| 国产wwwwwww| 久久久久久美女| 久久97久久97精品免视看秋霞| 国产精品宾馆在线精品酒店| 久久亚洲精品国产精品紫薇| 日本黄色一级视频| 一本色道久久综合狠狠躁篇的优点| 成人午夜亚洲| 特级西西人体www高清大胆| 成人精品一区二区三区四区| 国产亚洲精品久久777777| 亚洲精品mp4| 日本成人片在线| 亚洲国产精品女人| 成人网男人的天堂| 亚洲精品中文字幕乱码三区91| 亚洲最新中文字幕| 精品99re| 97在线免费公开视频| 国产精品无人区| 精品黑人一区二区三区国语馆| 欧美韩国理论所午夜片917电影| jizz国产精品| 99在线观看视频免费| jvid福利写真一区二区三区| 国产成人精品777777| 一本色道久久综合亚洲精品小说| 国产精品一区二区三区四区在线观看| 神马午夜伦理影院| 久久久久久久久97黄色工厂| 一区二区视频在线免费观看| 欧美激情欧美狂野欧美精品| 久久aimee| 国产午夜伦鲁鲁| 国产精品久久久久三级| 99精品在线看| 青青草国产精品一区二区| 欧美精选视频在线观看| 超级砰砰砰97免费观看最新一期| 亚洲成人www| 麻豆tv免费在线观看| 国内精品视频免费| 热久久免费视频| 亚洲日本韩国在线|