阿里最新全模態(tài)模型,成了!真·實(shí)測:多圖合成pose隨意擺,視頻實(shí)時(shí)對話,1分鐘7種語言絲滑切換,意外發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)截止到去年
原創(chuàng) 精選編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
就在今天,通義千問團(tuán)隊(duì)帶著新品來炸街了。
網(wǎng)友看完之后,都替美國的AI焦慮起來了:
如果美國實(shí)驗(yàn)室不開始在開放權(quán)重上競爭,中國模型可就要壟斷人工智能市場。
圖片
那么,作為千問系列里首個(gè)端到端原生全模態(tài)(文本、圖像、音頻、視頻)的通用大模型,Qwen3-Omni 究竟如何呢?
圖片
多語種切換:絲滑程度不輸GPT-5
Qwen3-Omni 是基于 Qwen3 的原生全模態(tài)大語言模型。它在文本和視覺模態(tài)上均無性能損失,在32個(gè)基準(zhǔn)測試中達(dá)到開源最優(yōu)水平,并在36個(gè)音頻及音視頻基準(zhǔn)測試中的22個(gè)實(shí)現(xiàn)整體最優(yōu),表現(xiàn)超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強(qiáng)大的閉源模型。
這一次新模型Omini的發(fā)布有一項(xiàng)主打的能力就是多語種自由切換。
這項(xiàng)能力非常重要,比如你收聽國內(nèi)外知名大佬同臺發(fā)表的一些中英文并存的觀點(diǎn)時(shí),又或者工作中,一位操著東北或四川口音的朋友跟你嘮嗑:
昨天開會噻(四川話),大家覺得 delay 兩周比較合適。
又或者單純有的朋友不自覺得,在中文里摻點(diǎn)英文:
Anyway,它有的時(shí)候是真的不work。
這里有一個(gè)問題,為什么包括OpenAI、谷歌在內(nèi),大家都在卷跨/多語種理解和切換的能力?
小編認(rèn)為,這是因?yàn)榭缯Z種理解問題本質(zhì)上是在考驗(yàn)大模型跨模態(tài)泛化能力。
不同語言是不同“編碼體系”。而模型能自由切換,說明它具備了某種 跨模態(tài)映射能力(把不同符號系統(tǒng)映射到同一語義空間)。
這種能力不僅有助于語言,還能遷移到 跨模態(tài)任務(wù)(語音→文字→圖像→動(dòng)作)。
此外,一句話充斥著多種語種,也可以看出大模型對語言的上下文建模和語義對齊能力是否足夠強(qiáng),是否具備真正的泛化理解力。
因此,來都來了,小編當(dāng)然不會放過測試它的機(jī)會。

小編除了英語、沒有其他特別能扯的外語了,所以就把能想起來的語種,比如日語(扣你急哇)、韓語(康桑阿米達(dá))、法語(蹂嗎),甚至連“瓜娃子”的四川話都飆出來了,總之,能實(shí)驗(yàn)的都實(shí)驗(yàn)了一番。
結(jié)果還是非常滿意的,我打9分,感覺 Omni 反應(yīng)非常絲滑,無縫切換。
視頻通話:實(shí)時(shí)畫面理解不錯(cuò)
視頻通話方面,由于谷歌的Gemini類似功能發(fā)布在前,所以沒有特別驚艷的地方。不過,我發(fā)現(xiàn)一個(gè)有意思的地方,就是Qwen3-Omni在對話中,會主動(dòng)根據(jù)你對話時(shí)所處的環(huán)境、動(dòng)作來分析理解你的行為和意圖,并主動(dòng)跟你聊天。
比如在上一個(gè)測試開始時(shí),它就快速捕捉到我再用手機(jī)拍攝電腦中的自己,率先對我發(fā)起了搭訕:
你是在用手機(jī)自拍嗎?(瞬間小編感覺有點(diǎn)被反向測試了~)
大家不妨自己親自試一試。蠻有意思的。
多說一嘴,Omni設(shè)置有多種有趣的聲音可供選擇,包括:
Dylan:在北京胡同里長大的青少年
Peter :天津相聲,專業(yè)陪唱
Cherry : 一位陽光、積極、友好、自然的年輕女士
Ethan: 一個(gè)陽光、熱情、精力充沛、充滿活力的男孩
Eric:一位與眾不同的四川成都人
Jada:來自上海的火辣姐姐
解鎖多圖合成:葉凡換裝,成了
上周,熱播動(dòng)漫《遮天》葉凡除了新皮(衣)膚(服),然后有在吃午飯的時(shí)候刷到了熱播劇《赴山海》,那個(gè)蕭秋水的粉里粉氣扎小辮的少年造型著實(shí)把我萌化了,想著這倆畫面,瞬間就來了一個(gè)不錯(cuò)的測試題目。
小編先在手機(jī)上涂鴉了一個(gè)比耶的手勢,然后就把下面三張圖甩給了Omni-Flash,打開圖像編輯功能,給它一句話:
圖1主體人物穿上圖2里的衣服,擺出圖3的pose。
小編一邊問,還一邊期待這三張圖合并之后會有什么神奇的效果。
圖片
不出2分鐘,Omni 給我答案了。第一眼看上去,雖然有點(diǎn)別扭,但沒有抽盲盒,第一張圖就能準(zhǔn)確理解我的意圖,尤其圖3我的那個(gè)手勢其實(shí)并不容易識別出來。總之,效果還是打80分的,絕對夠用了。
圖片
你看瘦的有些不協(xié)調(diào)了,不過沒關(guān)系,繼續(xù)點(diǎn)擊編輯,給個(gè)prompt:
身體跟頭部相比有點(diǎn)偏瘦,稍微改大概壯實(shí)一些。
圖片
一下,就出來效果了,這肌肉沒誰了~我權(quán)且給它取個(gè)名字:蕭秋水裝版葉凡。
這也是圖片生成領(lǐng)域,各大模型廠商在卷的方向,多張參考圖合成自己所需要的畫面。也值得大家上手一番。
為什么可以做到這樣的效果?
其實(shí),體驗(yàn)下來不難發(fā)現(xiàn),最大的兩個(gè)點(diǎn)就是:音視頻更加絲滑(延遲很低),跨模態(tài)之間信息的理解力更強(qiáng)了。
根據(jù)Github上的官方介紹,Qwen3-Omini模型實(shí)現(xiàn)了原生多模態(tài)支持。在保持強(qiáng)大音頻、音頻-視頻效果的同時(shí),單模態(tài)的文本與圖像性能不下降。
具體來講,在 36 項(xiàng)音頻/視頻基準(zhǔn)中,22 項(xiàng)達(dá)到 SOTA(最先進(jìn)水平),開源 SOTA 達(dá)到 32 項(xiàng);在語音識別(ASR)、音頻理解和語音對話上表現(xiàn)可與 Gemini 2.5 Pro 相比。
多語種支持:支持 119 種文本語言、19 種語音輸入語言、10 種語音輸出語言。
- 語音輸入:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
- 語音輸出:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。
圖片
此外值得一提的是,Qwen團(tuán)隊(duì)在模型架構(gòu)方面也做出了不小的創(chuàng)新,從底層的角度解釋了延遲低、泛化能力更強(qiáng)的原因。
創(chuàng)新架構(gòu):基于 MoE 的 Thinker–Talker 設(shè)計(jì),結(jié)合 AuT 預(yù)訓(xùn)練以獲取更強(qiáng)泛化表示;采用多碼本設(shè)計(jì),將延遲降至最低。
在Qwen官方X賬號上,這樣來描述這款模型:
該模型實(shí)現(xiàn)了統(tǒng)一文本、圖像、音頻和視頻于一個(gè)模型中,而無需在模態(tài)間做取舍!小編想,這可能也是包括GPT-5、Gemini 2.5 Pro唯二產(chǎn)品可以做到的水平吧。
意外發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)截止到2024年
測試過程中,小編還發(fā)現(xiàn)一個(gè)Omni的秘密:它的訓(xùn)練數(shù)據(jù)時(shí)間,應(yīng)該截止到去年。因?yàn)槲以谝曨l對話過程中問道:現(xiàn)在是哪一年,北京時(shí)間是幾點(diǎn)?
它回答我是2024年XX月XX日XX點(diǎn)XX分。小編當(dāng)時(shí)就把它調(diào)侃了一番:
那我是來自2025年的未來人,你是過去人。

雖然因?yàn)闀簳r(shí)沒有實(shí)時(shí)聯(lián)網(wǎng)的原因,Beta版的Omni視頻對話功能,表現(xiàn)出來的情商非常高。
他回答我:怎么可能,我們都在2024年呀,雖然未來人是一個(gè)很有趣的概念,但我們最終還是要討論現(xiàn)在的問題。
此外,小編其實(shí)還做了ChatGPT的語音對話的測試,因?yàn)橥瞥鰰r(shí)間已經(jīng)過去一年了,所以不管是多語種切換、還是實(shí)時(shí)時(shí)間等問題,明顯還是GPT-5更絲滑。
但有一項(xiàng)是Qwen3-Omni明顯占優(yōu)勢的:那就是有趣的中國方言,GPT-5始終講不出來,哈哈~
給千問團(tuán)隊(duì)刷一波火箭,撒花。
對了,朋友們可以自己實(shí)測一波:































