阿里最新全模態(tài)模型，成了！真·實(shí)測：多圖合成pose隨意擺，視頻實(shí)時(shí)對話，1分鐘7種語言絲滑切換，意外發(fā)現(xiàn)：訓(xùn)練數(shù)據(jù)截止到去年

作者：云昭 2025-09-23 16:38:05

Qwen3-Omni 是基于 Qwen3 的原生全模態(tài)大語言模型。它在文本和視覺模態(tài)上均無性能損失，在32個(gè)基準(zhǔn)測試中達(dá)到開源最優(yōu)水平，并在36個(gè)音頻及音視頻基準(zhǔn)測試中的22個(gè)實(shí)現(xiàn)整體最優(yōu)，表現(xiàn)超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強(qiáng)大的閉源模型。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

就在今天，通義千問團(tuán)隊(duì)帶著新品來炸街了。

網(wǎng)友看完之后，都替美國的AI焦慮起來了：

如果美國實(shí)驗(yàn)室不開始在開放權(quán)重上競爭，中國模型可就要壟斷人工智能市場。

圖片

那么，作為千問系列里首個(gè)端到端原生全模態(tài)（文本、圖像、音頻、視頻）的通用大模型，Qwen3-Omni 究竟如何呢？

圖片

多語種切換：絲滑程度不輸GPT-5

這一次新模型Omini的發(fā)布有一項(xiàng)主打的能力就是多語種自由切換。

這項(xiàng)能力非常重要，比如你收聽國內(nèi)外知名大佬同臺發(fā)表的一些中英文并存的觀點(diǎn)時(shí)，又或者工作中，一位操著東北或四川口音的朋友跟你嘮嗑：

昨天開會噻（四川話），大家覺得 delay 兩周比較合適。

又或者單純有的朋友不自覺得，在中文里摻點(diǎn)英文：

Anyway，它有的時(shí)候是真的不work。

這里有一個(gè)問題，為什么包括OpenAI、谷歌在內(nèi)，大家都在卷跨/多語種理解和切換的能力？

小編認(rèn)為，這是因?yàn)榭缯Z種理解問題本質(zhì)上是在考驗(yàn)大模型跨模態(tài)泛化能力。

不同語言是不同“編碼體系”。而模型能自由切換，說明它具備了某種 跨模態(tài)映射能力（把不同符號系統(tǒng)映射到同一語義空間）。

這種能力不僅有助于語言，還能遷移到 跨模態(tài)任務(wù)（語音→文字→圖像→動(dòng)作）。

此外，一句話充斥著多種語種，也可以看出大模型對語言的上下文建模和語義對齊能力是否足夠強(qiáng)，是否具備真正的泛化理解力。

因此，來都來了，小編當(dāng)然不會放過測試它的機(jī)會。

小編除了英語、沒有其他特別能扯的外語了，所以就把能想起來的語種，比如日語（扣你急哇）、韓語（康桑阿米達(dá)）、法語（蹂嗎），甚至連“瓜娃子”的四川話都飆出來了，總之，能實(shí)驗(yàn)的都實(shí)驗(yàn)了一番。

結(jié)果還是非常滿意的，我打9分，感覺 Omni 反應(yīng)非常絲滑，無縫切換。

視頻通話：實(shí)時(shí)畫面理解不錯(cuò)

視頻通話方面，由于谷歌的Gemini類似功能發(fā)布在前，所以沒有特別驚艷的地方。不過，我發(fā)現(xiàn)一個(gè)有意思的地方，就是Qwen3-Omni在對話中，會主動(dòng)根據(jù)你對話時(shí)所處的環(huán)境、動(dòng)作來分析理解你的行為和意圖，并主動(dòng)跟你聊天。

比如在上一個(gè)測試開始時(shí)，它就快速捕捉到我再用手機(jī)拍攝電腦中的自己，率先對我發(fā)起了搭訕：

你是在用手機(jī)自拍嗎？（瞬間小編感覺有點(diǎn)被反向測試了~）

大家不妨自己親自試一試。蠻有意思的。

多說一嘴，Omni設(shè)置有多種有趣的聲音可供選擇，包括：

Dylan：在北京胡同里長大的青少年
Peter ：天津相聲，專業(yè)陪唱
Cherry ：一位陽光、積極、友好、自然的年輕女士
Ethan：一個(gè)陽光、熱情、精力充沛、充滿活力的男孩
Eric：一位與眾不同的四川成都人
Jada：來自上海的火辣姐姐

解鎖多圖合成：葉凡換裝，成了

上周，熱播動(dòng)漫《遮天》葉凡除了新皮（衣）膚（服），然后有在吃午飯的時(shí)候刷到了熱播劇《赴山海》，那個(gè)蕭秋水的粉里粉氣扎小辮的少年造型著實(shí)把我萌化了，想著這倆畫面，瞬間就來了一個(gè)不錯(cuò)的測試題目。

小編先在手機(jī)上涂鴉了一個(gè)比耶的手勢，然后就把下面三張圖甩給了Omni-Flash，打開圖像編輯功能，給它一句話：

圖1主體人物穿上圖2里的衣服，擺出圖3的pose。

小編一邊問，還一邊期待這三張圖合并之后會有什么神奇的效果。

圖片

不出2分鐘，Omni 給我答案了。第一眼看上去，雖然有點(diǎn)別扭，但沒有抽盲盒，第一張圖就能準(zhǔn)確理解我的意圖，尤其圖3我的那個(gè)手勢其實(shí)并不容易識別出來。總之，效果還是打80分的，絕對夠用了。

圖片

你看瘦的有些不協(xié)調(diào)了，不過沒關(guān)系，繼續(xù)點(diǎn)擊編輯，給個(gè)prompt：

身體跟頭部相比有點(diǎn)偏瘦，稍微改大概壯實(shí)一些。

圖片

一下，就出來效果了，這肌肉沒誰了~我權(quán)且給它取個(gè)名字：蕭秋水裝版葉凡。

這也是圖片生成領(lǐng)域，各大模型廠商在卷的方向，多張參考圖合成自己所需要的畫面。也值得大家上手一番。

為什么可以做到這樣的效果？

其實(shí)，體驗(yàn)下來不難發(fā)現(xiàn)，最大的兩個(gè)點(diǎn)就是：音視頻更加絲滑（延遲很低），跨模態(tài)之間信息的理解力更強(qiáng)了。

根據(jù)Github上的官方介紹，Qwen3-Omini模型實(shí)現(xiàn)了原生多模態(tài)支持。在保持強(qiáng)大音頻、音頻-視頻效果的同時(shí)，單模態(tài)的文本與圖像性能不下降。

具體來講，在 36 項(xiàng)音頻/視頻基準(zhǔn)中，22 項(xiàng)達(dá)到 SOTA（最先進(jìn)水平），開源 SOTA 達(dá)到 32 項(xiàng)；在語音識別（ASR）、音頻理解和語音對話上表現(xiàn)可與 Gemini 2.5 Pro 相比。

多語種支持：支持 119 種文本語言、19 種語音輸入語言、10 種語音輸出語言。

語音輸入：英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
語音輸出：英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

圖片

此外值得一提的是，Qwen團(tuán)隊(duì)在模型架構(gòu)方面也做出了不小的創(chuàng)新，從底層的角度解釋了延遲低、泛化能力更強(qiáng)的原因。

創(chuàng)新架構(gòu)：基于 MoE 的 Thinker–Talker 設(shè)計(jì)，結(jié)合 AuT 預(yù)訓(xùn)練以獲取更強(qiáng)泛化表示；采用多碼本設(shè)計(jì)，將延遲降至最低。

在Qwen官方X賬號上，這樣來描述這款模型：

該模型實(shí)現(xiàn)了統(tǒng)一文本、圖像、音頻和視頻于一個(gè)模型中，而無需在模態(tài)間做取舍！小編想，這可能也是包括GPT-5、Gemini 2.5 Pro唯二產(chǎn)品可以做到的水平吧。

意外發(fā)現(xiàn)：訓(xùn)練數(shù)據(jù)截止到2024年

測試過程中，小編還發(fā)現(xiàn)一個(gè)Omni的秘密：它的訓(xùn)練數(shù)據(jù)時(shí)間，應(yīng)該截止到去年。因?yàn)槲以谝曨l對話過程中問道：現(xiàn)在是哪一年，北京時(shí)間是幾點(diǎn)？

它回答我是2024年XX月XX日XX點(diǎn)XX分。小編當(dāng)時(shí)就把它調(diào)侃了一番：

那我是來自2025年的未來人，你是過去人。

雖然因?yàn)闀簳r(shí)沒有實(shí)時(shí)聯(lián)網(wǎng)的原因，Beta版的Omni視頻對話功能，表現(xiàn)出來的情商非常高。

他回答我：怎么可能，我們都在2024年呀，雖然未來人是一個(gè)很有趣的概念，但我們最終還是要討論現(xiàn)在的問題。

此外，小編其實(shí)還做了ChatGPT的語音對話的測試，因?yàn)橥瞥鰰r(shí)間已經(jīng)過去一年了，所以不管是多語種切換、還是實(shí)時(shí)時(shí)間等問題，明顯還是GPT-5更絲滑。

但有一項(xiàng)是Qwen3-Omni明顯占優(yōu)勢的：那就是有趣的中國方言，GPT-5始終講不出來，哈哈~

給千問團(tuán)隊(duì)刷一波火箭，撒花。

對了，朋友們可以自己實(shí)測一波：

傳送門：https://chat.qwen.ai/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

全模態(tài)Qwen3-Omni GPT-4o