32B本地部署!阿里開(kāi)源最新多模態(tài)模型:主打視覺(jué)語(yǔ)言,數(shù)學(xué)推理也很強(qiáng)
就在DeepSeek-V3更新的同一夜,阿里通義千問(wèn)Qwen又雙叒叕一次夢(mèng)幻聯(lián)動(dòng)了——
發(fā)布Qwen2.5-VL-32B-Instruct。
此前開(kāi)源家族視覺(jué)語(yǔ)言模型Qwen2.5-VL包括3B、7B和72B三種尺寸。
這一次的32B版本進(jìn)一步兼顧尺寸和性能,可在本地運(yùn)行。
同時(shí)經(jīng)過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化,在三個(gè)方面改進(jìn)顯著:
- 回答更符合人類偏好;
- 擁有更強(qiáng)的數(shù)學(xué)推理能力;
- 在圖像解析、內(nèi)容識(shí)別以及視覺(jué)邏輯推導(dǎo)等任務(wù)中,表現(xiàn)出更強(qiáng)的準(zhǔn)確性和細(xì)粒度分析能力。
對(duì)比近期開(kāi)源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在純文本能力上也達(dá)到了同規(guī)模的SOTA表現(xiàn)。在多個(gè)基準(zhǔn)上,Qwen2.5-VL-32B甚至超過(guò)了72B。

舉個(gè)栗子,比如根據(jù)一張交通指示牌照片,Qwen2.5-VL-32B就能做如下精細(xì)的圖像理解和推理:
我正在這條路上駕駛一輛大卡車,現(xiàn)在12點(diǎn)了。我能在13點(diǎn)之前到達(dá)110公里遠(yuǎn)的地方嗎?

Qwen2.5-VL-32B首先對(duì)時(shí)間、距離、卡車限速進(jìn)行分析,然后分步驟條理清晰推算出正確答案:

模型已經(jīng)開(kāi)源,盡管自己前往實(shí)測(cè)~
Qwen2.5-VL-32B更多表現(xiàn)示例
官方剛剛發(fā)布的技術(shù)博客中也放出了更多展示示例。
數(shù)學(xué)推理能力上,幾何體分析也不在話下:

同樣是先有問(wèn)題分析環(huán)節(jié),然后再分四個(gè)小步驟推理正確答案:

下面這種復(fù)雜難題也能解:

能夠依次類推,歸納出構(gòu)造規(guī)律:




像下面這種圖片理解就更不在話下了:


多輪深度提問(wèn)也可以:

模型開(kāi)源,已能實(shí)測(cè)
現(xiàn)在,阿里已將Qwen2.5-VL-32B-Instruct放在了Hugging Face上。

在Qwen Chat上就能直接體驗(yàn)Qwen2.5-VL-32B,感興趣的童鞋可以試試。

動(dòng)作快的網(wǎng)友已經(jīng)開(kāi)始在MLX Community運(yùn)行了:

在Hacker News上,網(wǎng)友也就DeepSeek和Qwen的舉動(dòng)進(jìn)行了新一輪熱烈討論。網(wǎng)友紛紛表示:
開(kāi)源贏了,奧特曼錯(cuò)了。

值得一提的是,春節(jié)期間,DeepSeek曾與阿里通義千問(wèn)Qwen多次幾乎同時(shí)發(fā)布新模型,這一次又雙叒叕趕一塊去了。
杭州,原來(lái)真的是商量著一起發(fā)???



































