告別人工標注!首個MLLM數據流水線!中國團隊重構AIGC生態:2D→3D→4D全自動生成 精華

文章鏈接:https://arxiv.org/pdf/2508.05580
亮點直擊
- 提出基于MLLM的高效數據合成智能體框架Follow-Your-Instruction,可為多樣AIGC任務合成真實世界數據;
- 為實現高質量高效數據生成,引入綜合基準以評估MLLM驅動智能體在2D、3D與4D層級的表現,并開發多種MLLM輔助數據生成形式(包括上下文引導與長期指導);
- 通過微調3種最新基線模型在典型2D、3D與4D任務上的實驗證明,采用我們的數據能顯著提升模型在下游應用的性能。
隨著AI生成內容(AIGC)需求的增長,對高質量、多樣化且可擴展數據的需求變得日益關鍵。然而,收集大規模真實世界數據仍然成本高昂且耗時,阻礙了下游應用的發展。盡管部分工作嘗試通過渲染過程收集任務特定數據,但大多數方法仍依賴手動場景構建,限制了其可擴展性和準確性。為應對這些挑戰,提出Follow-Your-Instruction,一個由多模態大語言模型(MLLM)驅動的框架,用于自動合成高質量的2D、3D和4D數據。
Follow-Your-Instruction首先通過多模態輸入使用MLLM-Collector收集資產及其關聯描述,隨后構建3D布局,并分別通過MLLM-Generator和MLLM-Optimizer利用視覺語言模型(VLMs)對多視角場景進行語義優化。最后,使用MLLM-Planner生成時間連貫的未來幀。通過在2D、3D和4D生成任務上的全面實驗評估生成數據的質量。結果表明,本文的合成數據顯著提升了現有基線模型的性能,證明了Follow-Your-Instruction作為生成智能的可擴展高效數據引擎的潛力。
引言
AI生成內容(AIGC)旨在利用生成模型創造具有創意且逼真的內容,目前已廣泛應用于電影工業、增強現實、自動化廣告以及社交媒體內容創作。基礎模型的最新進展,例如擴散模型和多模態大語言模型(MLLMs),顯著提升了生成內容的質量與靈活性。作為數據驅動模型,這些模型通過大規模訓練數據集學習強大的先驗知識,使其能夠輕松應對多模態理解、生成、視覺編輯、動畫以及具身機器人等復雜任務。
然而,隨著AIGC應用向更復雜和細粒度場景發展,對高質量、任務特定數據的需求大幅增加。盡管大多數開源基礎模型訓練于LAION-400M和WebVid-10M等大規模通用數據集,但這些數據集通常缺乏細粒度應用所需的特定任務標注。例如,物體移除任務需要精確的背景掩碼,而4D生成則依賴準確的相機軌跡。此類精確監督信號的缺失,往往限制了這些數據集在專用生成任務中的直接適用性。
目前已有部分早期工作[23, 46]嘗試通過渲染管線構建任務特定數據集。Blender等渲染引擎能夠精細控制物體布局、光照條件和物理交互,適合為特定AIGC任務定制數據集。此類合成數據集常被用于微調強大的基礎模型,以提升下游應用性能。然而,手動設計與構建此類數據集仍是主要瓶頸,因其需要大量人力、領域專業知識,且難以平衡真實性、準確性與可擴展性。
為應對這些局限性,本文提出Follow-Your-Instruction——一種基于MLLM的高效數據合成智能體框架,旨在為廣泛AIGC任務生成逼真且多樣化的世界數據。更重要的是,據我們所知,這是首個同時支持2D、3D與4D生成任務的數據生成系統。如下圖1所示,該框架涵蓋七種代表性應用,包括2D物體移除、3D修復、補全以及4D多視角生成。具體而言,通過利用MLLM對真實世界的廣泛理解與交互能力,我們將強大MLLM集成至智能體中,并引入四個核心組件(MLLM-Collector、MLLM-Generator、MLLM-Optimizer和MLLM-Planner)以協助基準的設計與驗證。

主要從兩個維度評估Follow-Your-Instruction的性能:
- MLLM驅動合成數據質量評估:為衡量MLLM驅動合成的能力,我們在8種MLLM(含商業工具與研究方法)上針對4項指標進行實驗;
- 下游應用效果驗證:進一步檢驗合成數據的有效性,我們使用合成數據微調3類下游任務(如2D物體移除、3D重建和4D視頻生成)。結果表明任務特定性能顯著提升,凸顯了框架的實用價值。
相關工作
多模態大語言模型
多模態大語言模型(MLLMs)通過整合文本、視覺與3D模態持續演進。在內容修復領域,RestoreAgent展現2D任務的強勁性能,RL-Restore專注于模糊與噪聲的漸進恢復,Clarity ChatGPT雖結合對話但適用范圍有限。空間建模方面,Text2World與Spatial-MLLM分別聚焦符號化結構生成與雙編碼器推理,VSI-Bench則評估計數、導航等空間推理任務。具身交互中,GEA等模型在VisualAgentBench表現優異,而Embodied-Bench揭示GPT-4V等模型在長期規劃中的局限。盡管進展顯著,統一多模態評估與訓練數據的缺失仍是挑戰。
基于擴散模型的生成應用
擴散模型廣泛應用于2D、3D與4D領域的生成任務。2D任務(如物體移除與重光照)依賴人工標注數據集與分割流程;3D領域,LiDAR Diffusion Models利用專用數據集重建深度/點云,MV-Adapter通過即插即用模塊確保多視角一致性;4D方法如ReCamMaster與TrajectoryCrafter借助3D結構保證跨相機視頻生成的連貫性,Follow-Your-Creation則探索4D視頻編輯框架。然而這些方法需依賴成本高昂的大規模數據集。Follow-Your-Instruction利用MLLM生成高質量合成數據,降低真實數據依賴并增強適應性。

方法
本文提出的智能體框架——一個基于MLLM、覆蓋2D/3D/4D層級的綜合基準。如下圖2所示,該框架基于先進多模態大語言模型(如GPT-4o、QWEN3)構建。

基于多模態輸入的資產收集
給定條件輸入(如圖像I、文本T或動作A),本文的目標是創建高質量場景并保持時空一致性。現有工作如SceneCraft采用LLM分解器生成資產列表與子場景描述以支持場景生成,但該方法受限于輸入的固有缺陷:復雜視覺概念與風格難以僅通過語言完整表達,從而限制了用戶對生成場景的定制能力。
本文提出的智能體引入多模態資產檢索機制,利用MLLM在資產發現過程中整合文本與視覺信息。如圖2所示,除自然語言提示外,用戶可提供參考圖像或特定對象等多模態輸入,從而以更靈活的方式指定創作意圖。具體而言,我們首先使用MLLM將輸入轉化為資產列表。

全局場景構建與優化
3D布局生成

- 人工指令引導布局:根據輸入指令中的具體位置放置對象,公式如下:

- 默認策略:將對象的底部中心點對齊至世界矩陣中合適的未占用區域進行放置。

隨后,通過變換矩陣將對象嵌入全局布局:

其中與分別為估計的旋轉矩陣與縮放矩陣。
最終,MLLM-Locator通過標定相機的內參矩陣和外參位姿將3D布局投影至2D圖像平面:

其中表示透視投影函數,為對象的圖像坐標。
多視角優化
盡管通過多模態輸入構建了完整場景,全局布局仍可能存在不匹配問題。現有工作[15]采用基于MLLM的迭代視覺反饋循環優化場景布局,但僅依賴單視角渲染往往不足,尤其在處理物體間物理交互時。例如下圖3所示,當輸入文本條件為"將兩個杯子放在桌上"時,若僅從單一視角優化,可能僅調整粉色杯子在當前視圖中的位置,而其他角度下該杯子仍懸浮于桌面(如圖3(a))。這種差異源于MLLM無法感知當前視角隱藏的深度不一致性。

為確保場景布局更可靠且符合物理規律,需在反饋過程中引入多視角渲染。多視角使模型能更好驗證空間關系,減少單視角導致的視覺歧義,生成更魯棒的布局。本文智能體提出由強大視覺語言模型(VLM)引導的多視角反饋優化策略:從多視角渲染當前場景,并與VLM交互(如"粉色杯子是否放置在桌上?")以驗證各視角的空間關系。

其中為VLM反饋的置信分數,若分數超過閾值,智能體判定當前場景優化成功;否則通過MLLM-Locator重新生成對象位置進行優化。該策略的有效性如圖3(b)所示:粉色杯子在側視圖中初始位置錯誤,經VLM引導修正后,所有視角下均被準確放置。
MLLM引導的任務規劃
盡管MLLM-Optimizer生成的2D圖像數據集足以支持簡單任務(如2D物體移除、重光照與補全),我們仍需為實際應用合成高質量視頻數據集。借助MLLM的上下文學習與長期學習能力,我們引入MLLM-Planner進行視頻生成。
如圖2所示,MLLM-Planner接收人類指令與生成場景作為輸入,首先理解視覺場景并創建視覺狀態描述,定位當前幀的主對象;隨后結合人類指令與VLM優化器的反饋精煉動作,推理準確目標;最終將語言計劃轉化為可執行計劃以生成后續幀。
但連續幀間的時間不一致性問題仍然存在,這源于MLLM-Planner專注于離散動作執行而未能確保平滑過渡,導致生成序列可能出現突變、不自然運動或中間狀態缺失。為此,我們引入VLM引導的幀預測模塊(圖2步驟14),利用VLM的視覺推理能力評估幀間運動、對象狀態與場景動態。當檢測到不一致時,該模塊反饋至MLLM-Planner促使其優化動作或插入中間步驟,通過迭代提升時間連貫性與視頻質量。
實驗
生成場景質量評估
實驗設置現有大多數多模態大語言模型(MLLMs)已展現出優秀的視覺與語言理解能力。參照近期工作[63],對比的基線為最先進的MLLMs,可分為閉源專有模型與開源模型,因其代表了多模態推理與決策的前沿水平。
閉源模型包括GPT-4o與GPT-4o-mini、Claude-3.5-Sonnet與Claude-4-Sonnet、Gemini-2.5-Pro與Gemini-2.0-flash以及Qwen-VL-Max。這些模型以通用多模態任務中的強大性能著稱,具備先進的推理能力與互聯網規模數據的廣泛訓練。開源模型如Llama-3.2 Vision Instruct、InternVL2.5與InternVL3、Qwen3與Qwen2.5-VL、Gemma-3及Ovis2,覆蓋7B至90B參數量級,為研究提供可深入分析架構設計與縮放效應的替代方案。
實驗結果
下表1展示了不同MLLMs應用于數據合成智能體的定量對比。我們使用美學分數評估感知質量,并基于VBench衡量主體外觀與背景穩定性的場景一致性,文本對齊度通過CLIP相似度評估。結果表明MLLM引導在Follow-Your-Instruction中的關鍵作用:GPT-4o在所有指標中表現最優,凸顯其卓越的跨模態推理與對齊能力;Claude-4-Sonnet與Claude-3.7-Sonnet在美學與一致性上緊隨其后,但對齊度稍遜。開源模型中InternVL3-78B與Qwen3-235B-A22B-Ins綜合表現最佳,但與GPT-4o仍有顯著差距。需注意,本實驗旨在證明框架核心MLLM驅動能力對多樣AIGC任務與MLLM結構的普適性,而非追求單一MLLM的峰值性能。

應用展示
如下圖4所示,展示了若干代表性任務及智能體生成的對應真實標注。這些案例凸顯了智能體跨環境與任務目標的泛化能力。所提智能體的應用涵蓋2D(物體移除與重光照)、3D(重建、旋轉與具身智能)及4D環境(4D補全與重建),體現了Follow-Your-Instruction在新興研究領域內容創作中的潛力。

下游應用評估
基線模型
為全面評估合成數據質量,在2D/3D/4D AIGC應用(包括物體移除、3D重建與4D視頻生成)上微調多個基線模型。2D物體移除任務采用RoRem作為基線,評估數據微調后的改進;3D重建任務使用最新多視角重建框架MV-Adapter,衡量幾何精度與一致性的提升;4D視頻生成任務通過ReCamMaster評測動態場景合成的時間連貫性與保真度。這些基線系統化量化了合成數據對多維度AIGC模型的影響。
定性結果
下圖5展示了2D/3D/4D應用的視覺對比。可見:未使用生成數據微調時,物體移除任務在語義補全上表現欠佳(如圖5首行2D任務,模型生成異常白色物體而非修補砧板),移除后存在偽影(圖5第二行2D任務);經數據微調后這些問題顯著緩解。3D任務中,未微調模型雖能生成優質前視圖,但后視圖質量與一致性較差,微調后幻覺問題得以修正。

4D生成作為新興范式,需在相機軌跡引導下合成可控視頻。如圖5所示,盡管ReCamMaster實現了較好的姿態精度與平滑鏡頭運動,背景仍存在不一致性與偽影,而我們的生成數據提升了其性能。
定量結果
針對三類應用的定量實驗顯示(2D物體移除與3D重建結果詳見附錄),4D生成結果如下表2所示。參照ReCamMaster,評估視覺質量、相機精度與視角同步性:通過旋轉/平移誤差衡量相機軌跡精度,計算CLIP-V與FVD-V評估同場景多視角同步性。結果表明基線模型經微調后性能均獲提升。

消融實驗
多視角優化有效性
如下圖6所示,評估多視角優化策略中不同幀數的影響。僅使用單視角優化時,當前視角物體位置雖正確,但其他視角常出現錯位;增加優化視角可緩解該問題。定量消融實驗(下表3)表明:視角增加會延長生成時間,而優化成功率提升有限。基于此,我們選擇雙視角作為效率與性能平衡的最優配置。


VLM引導幀預測的有效性
下圖7與表4展示了VLM引導幀預測模塊的貢獻。如圖7第二行所示,未采用該策略時,生成視頻常出現時間不一致性——相鄰幀間運動突變且不連貫。具體表現為:飛機旋轉角度在連續幀間過大,導致短時間內呈現兩次轉向。這表明規劃動作缺乏連續性,從而產生次優的視覺質量與時間斷層。


結論與討論
結論
Follow-Your-Instruction——一種基于MLLM的高效數據合成智能體框架,能夠從多模態輸入(如文本、圖像或混合文件)生成跨2D、3D與4D層級的逼真場景。該框架以多模態大語言模型為核心,結合四大組件:MLLM-Collector、MLLM-Generator、MLLM-Optimizer與MLLM-Planner。
首先,MLLM-Collector將文本輸入轉化為資產或整合視覺輸入的資產,增強用戶導向的場景創建;
隨后,MLLM-Generator構建場景3D布局并由MLLM-Optimizer優化;
最終,MLLM-Planner生成后續幀并通過VLM引導的幀預測模塊進行精修。
實驗結果表明,我們的智能體在數據合成過程中充分發揮了MLLM的能力,顯著促進了多種下游AIGC應用。
局限性
當前方法存在三點不足:(1) 性能依賴于底層專有MLLM的能力;(2) 未驗證生成數據對提升其他真實世界基準泛化性的效果;(3) 可擴展性受限于對既有資產庫的依賴。
本文轉自AI生成未來 ,作者:AI生成未來

















