ICCV2025 | One image is all you need,多模態指令數據合成,你只管給圖,剩下的交給Oasis
近年來,多模態指令數據合成方法多依賴人工設計復雜的合成提示詞(prompt),耗費大量人力與時間成本。在文本數據合成領域,MAGPIE [1] 是一個非常成功的合成方法,該方法無需用戶提供任何 prompt,僅以 <|im_start|> 這類特殊 token 作為模型輸入,即可完成數據合成。
受啟發于 MAGPIE,本文中來自同濟大學、字節跳動和愛丁堡大學的研究者提出了一種新型多模態指令數據合成方法,只需用戶提供圖片(即,VLM 中常用的特殊 token <image>),Oasis 會自動完成指令合成、質量控制和回復生成,產出高質量的數據。
同時,為了支持進一步研究,該研究提供了一個全新的開源代碼庫 MM-INF,該庫涵蓋了 Oasis 和一些常用的多模態數據合成方法,并不斷進行更新維護,歡迎大家試用并提供寶貴的反饋意見。

- 論文鏈接:https://arxiv.org/abs/2503.08741
- 代碼鏈接:https://github.com/Letian2003/MM_INF
- 數據集鏈接:https://huggingface.co/datasets/WonderThyme/Oasis
研究動機

上圖展示了常用數據合成鏈路與 Oasis 的流程對比,常用的數據鏈路可能會存在以下三類問題:
- 多樣性缺失:大量方法依賴固定不變的提示詞與合成流程,嚴重限制了數據的覆蓋范圍與難度層次,導致生成數據同質化嚴重;
- 質量不足:現有技術難以穩定產出能顯著提升多模態大語言模型(MLLMs)表征能力的高質量合成數據,多數研究不得不退而求其次,采用基于圖像描述(caption)的二次生成策略,效果與效率均不理想;
- 依賴人工:流程繁瑣且成本高企。即便看似 「一站式」的合成框架,在關鍵環節(如設計數據模式、編寫提示詞等)仍需大量人工參與,不僅費時費力,還使整個數據合成過程低效且繁瑣。
本文提出的 Oasis 僅依靠圖像生成數據,打破了依賴預設文本提示詞(<image> + [text prompt])的傳統多模態輸入模式。 該方法誘導強大的 MLLM 僅基于輸入的圖像(作為 < image> token 輸入),利用其自身的知識和自回歸特性,自主生成多樣化、與圖像內容相關的指令。完全不需要人工提供任何前置的文本提示詞。研究者深入分析了高質量指令應具備的屬性,并據此精心設計了一系列篩選標準,用于自動過濾掉生成指令中的低質量數據。
方法介紹
概述

方法如上圖所示,主要有三個步驟:
- 構造 「鉤子提示詞(hooking prompt)」以誘導模型進行自回歸采樣;
- 對采樣結果進行分類,只保留指令型采樣結果;
- 進行指令質量控制 & 回復生成。
我們以 Qwen2-VL 為例,詳細介紹這三個步驟。
第一步:構造 「hooking prompt」 誘導模型進行自回歸采樣
以圖像描述為例,一個典型的 MLLM 輸入為 「<|im_start|>User\n<image>Describe the image.<|im_end|>\n<|im_start|>Assisstant」,MLLM 感知到當前的 role 為 Assistant 后,會生成關于指令的回復。
我們提取完整輸入中的前綴 「<|im_start|>User\n<image>」,送入到 VLM 中進行采樣,由此生成的回復是不受任何人為 bias 影響的,唯一的 condition 是圖片自身;
在采樣過程中,生成的數據大致可分為兩類:指令型(instruction-following)和描述型(caption),這一現象可以通過交錯的多模態語言模型(MLLM)圖像 - 文本訓練過程來解釋。
第二步:采樣結果分類
為了僅篩選出指令數據用于后續工作,我們設計了一種分類機制將數據歸入指令型和描述型兩類。
具體而言,我們驅動一個大語言模型(LLM)作為分類器來預測類別。若包含指令,則將其分類為指令遵循型數據,并從中提取一條指令;否則,將其分類為描述型數據并舍棄。我們采用 few-shot 策略以提高分類精度,完整的提示詞模板見附錄。
對于分類為指令型的采樣結果,我們會進行質量控制和回復生成。
第三步:質量控制 & 回復生成
我們從指令的 可解性 / 清晰度 / 幻覺程度 / 無意義性 四個角度,對指令進行篩選,通過篩選的指令會用 Qwen2-VL 進行回復生成,組成一條完整的 「指令 - 回復」 訓練數據;
每個維度均采用 1-5 級評分(1 分表示最差,5 分表示最優):
- 可解性 (Solvability):評估圖像是否提供足夠的信息來全面回答問題。如果圖像缺失關鍵細節(如對象或上下文),指令可能無法被完全解決。
- 清晰度 (Clarity):評價問題傳達意圖的精確程度。指令應避免模糊性,確保能得出明確答案(例如,避免開放式或含糊的表述)。
- 幻覺程度 (Hallucination):衡量問題內容與圖像實際內容的一致性。指令需避免引入圖像中不存在的信息(如虛構對象或場景)。
- 無意義性 (Nonsense):檢查問題在語法、連貫性和語義上的合理性。指令必須通順、有意義,避免錯誤如語法混亂或邏輯矛盾。
具體的篩選細節見附錄。另外,我們在消融實驗中發現回復的質量控制是無效的,只對指令做質量控制即可。
Oasis-500k
我們基于 Cambrian-10M [2] 的圖片,進行數據生產,最后合成約 500k 的訓練數據,稱之為 Oasis-500k;由于 Oasis 的生產只依賴圖片,所以只要圖片的數量是足夠的,Oasis 可以輕松進行 Scaling,數據量級隨著時間是線性增長的。
數據特性分析
我們對 Oasis 合成的數據和開源常用的指令數據 LLaVA-NeXT 進行了一系列屬性的對比,包括指令和回復的長度、語言類型、動名詞組合等。
指令和回復的長度

如上表所示,從指令和回復的平均長度來看,Oasis 數據均長于 LLaVA-NeXT,且整體標準差更大。更長的長度表明 Oasis 數據可能包含更豐富的信息,而更大的標準差則說明其數據任務更多元。
語言類型

得益于該方法的自回歸特性,基于圖像的自回歸過程不會引入顯式語言偏差,因此生成的指令覆蓋廣泛語種。借助 langdetect 庫,對 Oasis-500k 數據的語言類型分布進行可視化分析發現:除英文(78.52%)和中文(18.66%)外,還包含韓語、挪威語、越南語、法語、德語等小語種,語言多樣性顯著。
動詞名詞組合

基于 spaCy 庫,解析了數據集的根動詞(root verbs)與高頻名詞對象(top noun objects,即出現頻率超過 1% 的根動詞及與其關聯的前 3 位名詞對象)。上圖展示了兩類數據中最常見的根動詞及對應名詞對象分布,相較 LLaVA-NeXT,Oasis 數據的根動詞具有以下優勢:
- 表達自然性:覆蓋更自然實用、信息量更豐富的動詞語匯;
- 對象多樣性:高頻名詞對象呈現更豐富的語義分布。
值得注意的是,LLaVA-NeXT 對 「answer question」 組合的高度依賴,反映出其在任務設計上可能過度偏重問答(QA)場景。
數據示例

Oasis 數據集的示例如圖所示,可見 Oasis 的指令生成能力很強,可基于圖像主題生成細節豐富且信息密度高的指令。另外生成的任務覆蓋廣度好,涵蓋跨領域任務場景,如目標識別(Object Recognition)、場景描述(Scene Description)和代碼理解(Code Comprehension)等。這些可視化同樣佐證了前文關于數據多樣性的觀點。
實驗結果

Oasis 有效性
我們將 LLaVA-NeXT 設置為 baseline,在其 SFT 數據上做增量改進,觀察相對于 baseline 的提升。我們在 14 個 benchmark 上對基于 Oasis 訓練的 MLLM 進行了全面評估。
如上表所示,Oasis 作為基線的增量數據引入,較基線實現全面且顯著的性能提升。
在 Vicuna1.5/Qwen2.5/Llama3 等基座網絡上,平均提升分別 3.1%/1.8%/3.2%;以 Vicuna-7B-v1.5 為例,通用知識 MMBench-EN/CN 準確率提升 + 1.4% / +2.3%;OCR 任務 TextVQA 與 OCRBench 精度分別提高 2.7% 和 2.1%;在文檔分析任務上較基線提升 4.3% 和 6.3%;
上述結果不僅證明了合成數據的多樣性,更揭示了 Oasis 在增強 MLLM 泛化能力上的有效性。
對比其他合成方法
除了 Oasis 數據,我們引入了 4 種增量改進,來進一步說明 Oasis 的有效性。
- Oasis 圖片的原始標注數據(指令 + 回復),驗證 SFT 圖片多樣性增加的影響;
- LLaVA-NeXT 原始 SFT 數據的上采樣,排除數據量級對效果的影響;
- MMEvol 數據 [3]
- DenseFusion-1M 數據 [4]
如上表所示,Oasis 作為增量數據引入時,依然表現出了更好的綜合性能,再一次佐證關于數據多樣性的觀點;
數據 Scaling 效果
我們基于 100k 的 LLaVA-NeXT 數據,對 Oasis 的數據量進行了 3 組 Scaling 實驗,即,在 LLaVA-100k 的基礎上分別加入 150k/300k/500k 的 Oasis 合成數據。整體趨勢上來看,Oasis 數據量從 0 增至 500k 的過程中,模型性能穩定提升,添加 500k 條 Oasis 數據后,平均得分提高 5.2%;300k→500k 帶來了 + 4.0% 的顯著增益,也進一步說明該數據的可擴展性;
垂域數據合成能力


受益于 Oasis 只依賴圖片輸入的特性,它非常善于合成垂類的數據。我們以 OCR 為例,驗證 Oasis 在垂域數據合成上的有效性。我們從 Cambrian-10M 中篩選出了 24 個和 OCR 相關的數據集(共 311k 圖片),然后基于這些圖片進行 Oasis 數據合成了 70k 的垂域訓練數據。如上表所示,這份 OCR 垂域數據在 OCR 相關的 benchmark 上帶來了非常明顯的提升。另外如上圖所示,Oasis 合成的數據不僅僅關注文字提取任務,同樣也考察了模型對于上下文的理解、屬性推理等能力。
消融實驗

描述數據的回收利用
在數據合成流程的第二步中,我們使用了 LLM 來對第一步中模型自回歸采樣出的數據進行篩選,去掉 caption 類型的數據。這一步的通過率為 49.9%,占比約一半的 caption 類型數據被丟棄,這導致合成效率受到較大的影響。
因此,我們采用一些策略來對此類 caption 數據進行回收利用。首先,我們使用一些規則來對數據中的特殊字段(如亂碼等)進行去除。然后,我們使用 Qwen2.5-72B-Instruct LLM 來對 caption 數據的質量進行三個維度評估,最終我們得到了約 250k 的高質量 caption,并與 LLaVA 論文中給出的圖像詳細描述指令進行隨機匹配。
我們在原始的 OASIS 數據上額外加入這 250k 數據進行訓練,如上表所示,加入 caption 后多數指標有上升,并帶來了總體 0.3% 的提升。這說明我們可以低成本地回收利用數據合成過程中被丟棄的數據,并帶來額外的實驗收益。
指令質量控制的必要性
在完成數據分類之后,我們對指令質量進行了控制,從四個維度篩除低質量指令:可解性、清晰度、幻覺成都和無意義內容。為了評估這一質量控制機制對數據質量和模型性能的影響,我們進一步進行了消融實驗。
具體來說,我們使用經過質量控制和未經質量控制的 20 萬條數據分別訓練模型,比較所得模型的性能。在質量篩選過程中,高質量指令的接受率為 50.9%,因此,未經質量控制的 20 萬條數據中,會包含約 10 萬條 「低質量」 指令。
根據上表第二部分展示的實驗結果。在應用質量控制機制的情況下,模型整體性能顯著提升了 1%。在 DocVQA 和 InfoVQA 這兩個任務中,模型性能分別提升了超過 7%。這一結果充分證明了在 Oasis 框架中,數據質量控制機制是非常必要的。
回復質量控制的必要性
為探究響應質量控制的必要性,我們嘗試了兩種低質量響應過濾方法:
- 負對數似然(NLL)拒絕采樣法:對每條指令采樣 5 個回復,計算其負對數似然,保留置信度最高的回復作為最終輸出(參考 [5]);
- 多模態大語言模型(MLLM)評分法:使用 Qwen2-VL-72B-Instruct 模型從有用性(helpfulness)、真實性(truthfulness)、指令遵循性(instruction-following)三個維度進行 1-5 分評分,過濾未獲滿分(5 分)的回復。
如上表所示,證明兩種方法均導致模型平均得分下降(-0.7% 與 -1.6%),證明對回復做質量控制無效甚至有害。高質量指令本身即可驅動 MLLM 生成高質量的回復,引入對回復的質量控制可能會引入額外的人為 bias;
開源代碼庫 MM-INF
- 代碼鏈接:https://github.com/Letian2003/MM_INF
該研究還開源了一個數據合成的 codebase MM-INF。該 codebase 依托于開源代碼庫 ms-swift [6] 實現了一個數據合成引擎,可以串聯起若干個基于 LLM/VLM 的數據合成步驟。代碼庫內涵蓋了 Oasis 的實現以及一些常用的多模態數據合成鏈路(如圖片描述、基于描述生成 QA 等),歡迎大家試用并提供寶貴的反饋意見。




































