3B激活參數也能做多模態Agent?小模型也有大智慧,附Skywork R1V4-Lite實測
昨天刷到了昆侖萬維發布了一個Skywork R1V4-Lite模型,只有3B的激活參數,就可以主動操作圖像、調用外部工具、圖文交互深度檢索,是一個多模態Agent模型。
技術核心是,R1V4-Lite 加上了主動操作,訓練過程引入圖像操作和深度推理交互訓練,做到 All-in-One,讓小模型從源頭具備更清晰的任務規劃與搜索增強的能力。
30B-A3B是不是很眼熟,沒錯,它是基于Qwen3-VL-30B-A3B增量訓練的,還有它僅使用了3萬條后訓練數據,再次體現了高質量數據的重要性。
最終整體榜單的效果,在感知和深度研究上全面超越Qwen3-VL-30B-A3B和Gemini2.5-Flash。

榜單重要也不重要,因為我們是主打實測,哈哈哈,來看看R1V4-Lite模型的整體效果到底如何?
懶人不愛看版本:
- 因為訓練數據以英文為主,所以思維鏈和回答會以英文為主,你問了中文也會回答英文,當然你可以額外加上指令“請用中文回答”,那會用中文回答。
- 找位置,簡直無敵,由于帶有圖片裁剪、放大等操作,再加上圖片檢索,找圖片位置簡直是一絕。
- 較低分辨率的內容可以識別的比較好,因為會先放大。
- 計算推理一般,因為有代碼操作,會默認用代碼進行計算,但代碼部分模型做的圖像變換比較多。
- 其他能力就依賴于原始Qwen3-VL的能力了,比如時鐘識別依然是問題。
- 純Plan能力,我沒專門測試,感興趣自己可以去測測。
- 速度很快A3B讓模型輸出嗖嗖的。
先看幾個常規的模型能力,目標識別,數數,考察模型基本查個數的能力,“告訴我桌子上菇娘兒的個數”。

報告解讀,考察模型內容理解能力、知識儲備的能力。“請幫我解讀一下報告內容”。

表格識別,內容提取和指令跟隨能力。

但,并不是所有表格都很好,對于字數較多的表格,還原起來就沒有那么好。
除了常規預測外,因為可以精準調用外部工具,同時R1V4-Lite可以進行自動圖片裁剪、放大、翻轉,所以對于定位、細粒度分析的內容效果會格外的好。
比如,之前所有VLM大模型都回答不了的“上海金茂大廈”位置,R1V4-Lite精準回答。

用了圖像搜索,所以你說他作弊,也行,但是也是實打實的找對了。
注意它的圖像思考和檢索是交互存在的,并不割裂,所以找的也更準色盲測試,會對圖片進行一系列操作,主要提高圖片的對比度,讓這些數字更清晰可見,下圖,很直觀。

還有找到奔跑的人,可以精準框出人所在的位置。

低分辨率的圖像,也會做先裁剪,再放大、高清的處理,讓其VLM模型可以再次看,可以更清楚。

不過,時鐘問題,依然是比較難得,這個跟基模也有一定的關系,時鐘翻轉沒有回答正確,只做了裁剪放大。

以上測試完畢,你可以在skywork api平臺上測試:https://platform.skyworkmodel.ai/ ,
接口文檔:https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html,
同時,Skywork R1V4-Lite的論文也放出來了,Paper:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf。
核心內容在數據構造的部分,感興趣的可以仔細閱讀一下原文。我這里簡單帶過一下。
- 圖像操作部分,讓開源或閉源大模型(GLM4.6、Claude)通過編寫代碼對圖像執行一系列操作,包括但不限于裁剪、旋轉、對比度增強和像素級分析,每一步都對比代碼輸出與推理文本是否一致,4 次采樣只留答對的樣本數據。

- 搜索部分,分成基礎搜索和增強搜索,基礎搜索,圖像主體突出,查詢簡單,一般通過反向圖像搜索識別主體后,通常只需幾輪文本搜索即可獲得答案。增強搜索,涉及增強文本query生成和文本到多模態query改寫。
- 能力融合,隨機抽取 3k 例 LiveVQA,用 Claude 寫 先裁圖→搜索→再裁圖 的混合腳本,再用 VLM 自動丟棄錯位裁剪等低質量樣本,保證圖像操作與搜索結果因果一致。
R1V4-Lite的系統提示詞如下;

最后,R1V4-Lite還是蠻讓我吃驚的,用了一些很巧妙的方法,解決了一些30B模型無法很好解決的問題,也能具備大模型級別的多模態鏈式推理與主動行為能力,以前都是很大模型,來去做Agent交互,R1V4-Lite讓我們看到了更多可能吧,當然,模型依然還有一些不足,但這不正是我們要努力的方向嗎?
然后今天Gemini 3.0 Pro更新了,在測試了。
本文轉載自??NLP工作站??,作者:NLP工作站

















