開放指令編輯效果爆表!小米開源Lego-Edit登頂SOTA:用強化學習教MLLM“舉一反三”!

論文鏈接:https://arxiv.org/pdf/2509.12883
Git鏈接:https://github.com/xiaomi-research/lego-edit

圖1 編輯效果展示
亮點直擊
- Lego-Edit,這是一種基于指令的圖像編輯框架,利用經過強化學習微調的MLLM agent 來協調模型級編輯工具,以執行靈活的現實世界指令。
- 引入了一種三階段漸進式強化學習訓練策略,利用無標簽數據提供反饋,顯著增強了MLLM的推理和工具組合能力。
- 大量實驗表明,Lego-Edit在GEditBench和ImgBench上達到了SOTA性能。該框架在處理靈活的開放域指令方面表現出強大的泛化能力,并且可以在不重新訓練的情況下整合新工具。
總結速覽
解決的問題
- 現實世界用戶指令的多樣性使得現有基于指令的圖像編輯方法難以有效泛化到訓練領域之外的指令,限制了其實際應用。
提出的方案
- 提出Lego-Edit,通過利用多模態大語言模型(MLLM)的泛化能力,組織一套模型級編輯工具來應對指令多樣性挑戰。
- Lego-Edit包含兩個關鍵設計:
a.模型級工具包:由多樣化模型組成,包含若干圖像操作功能,支持MLLM精細組合編輯動作。
b.三階段漸進式強化學習方法:利用未標注的開放域指令反饋來訓練MLLM,提升其處理現實世界指令的泛化推理能力。
應用的技術
- 多模態大語言模型(MLLM)
- 模型級工具包
- 三階段漸進式強化學習策略
達到的效果
- Lego-Edit在GEdit-Bench和ImgBench上達到了最先進的性能。
- 展現了強大的開放域指令處理和推理能力。
- 能夠在不重新訓練的情況下整合新引入的編輯工具。
方法
Lego-Edit,這是一個為通用基于指令的圖像編輯設計的框架。它使用Builder(一個MLLM)來調用Bricks(模型級工具)以實現靈活性,并采用強化學習(RL)來增強Builder的推理和工具組合能力。本文首先概述整體框架,然后詳細說明Builder的提示結構。接下來的部分描述工具分類,最后一部分詳細闡述本文為Builder設計的三階段漸進式RL訓練策略。
整體框架
如下圖3所示,本文的系統包括:


提示結構
本文策劃的Builder輸入提示格式(上圖3左側)有三個關鍵組成部分:
- 系統描述和調用約束:通過系統提示定義能力、任務范圍和有效的工具參數類型。
- 可用工具列表:每個條目包括模型名稱、功能描述和調用約束,詳細說明編輯能力和要求。
- 工作流組合示例:少量示例指導有效的工作流編寫。
在這些之后,提示呈現編輯指令,并指導Builder在推理后生成編輯工作流。
模型級編輯工具

三階段漸進式強化學習策略

階段1:監督微調(SFT)

階段2:基于GT的獎勵進行優化

階段3:使用無GT評論獎勵進行泛化

實驗
首先展示模型的零樣本能力,隨后通過大量實驗驗證了本文框架在圖像編輯基準測試中的優越性。接著,分析模型級工具帶來的性能提升和其他優勢,最后展示通過強化學習提升的 Builder 的泛化能力和性能。
實現細節

編輯工具: 采用 ICEdit 的框架(使用 FLUX-1 主干和 LoRA 微調,rank=32),但為各個任務實現了五個專用適配器,而不是多任務適配器。每個適配器在 OmniEdit 和 MagicBrush 精選的 10K 任務特定樣本上進行訓練,通過 VIEScore 評估,使用全局批量大小為 8,在 768×768 分辨率下進行 10K 步訓練。
所有實驗均使用 8×NVIDIA H20 GPU 進行訓練。本文采用 DeepSpeed ZeRO-3 來加速訓練。
評估設置
為確保權威的評估,在兩個廣泛采用的數據集上對本文的方法進行基準測試:GEdit-Bench(606 個樣本)和 ImgEdit(811 個樣本),這兩個數據集以復雜的編輯指令和高質量的圖像而聞名。按照標準協議,本文采用由 GPT-4o 執行的 VIEScore 作為本文的主要指標。為確保公平性和可重復性,本文將隨機種子固定為 0,并對所有評估進行單次推理。在 GEdit-Bench 上使用單個 H20 GPU 時,本文的 Builder 需要 3.5 秒,最慢的工具需要 2.7 秒,總的管道延遲約為 7.2 秒,而在相同設置下,端到端方法 Bagel 的延遲超過 25 秒。
Builder 的零樣本能力
具有靈活工具組合的零樣本復雜編輯:下圖 6 展示了在靈活指令下編輯結果的視覺對比,以及 Builder 的工具組合過程。對于“交換”指令,盡管 Builder 并未在此任務上進行顯式訓練,但它通過首先使用 RES 和 INPAINT 移除對象 A,然后通過 ADD-PRED 和 FILL 插入對象 B,有效地將指令分解為原子操作。這個例子展示了它為靈活編輯指令組合專用工具的能力,使其能夠進行超越端到端或精心設計的管道模型的復雜編輯。

零樣本適應反饋和新工具:下圖 15 展示了 Builder 在不重新訓練的情況下適應用戶反饋和新工具的能力。在反射去除任務中,Builder 的初始工作流程(RES 和 INPAINT)失敗,因為 RES 無法有效地分割反射。用戶可以提供直接指令,例如“在 INPAINT 之前不要使用 RES”,以防止這種情況。在此反饋的指導下,Builder 修改了其工作流程:使用 SOS 進行前景分割,使用 INVERSE 推斷背景,然后用 INPAINT 去除部分反射。此外,用戶可以引入專用的反射去除工具(RRF),Builder 可以輕松采用該工具來有效解決任務。這說明了系統通過整合新工具或結合用戶反饋來擴展能力的適應性,而無需修改 Builder。

與最新技術的比較



ImgEdit-Bench: Lego-Edit 在 ImgBench 上保持頂級表現,在所有比較方法中取得了最高的整體評分(3.50)。詳細結果見下表 1。重要的是,本文的框架在最具挑戰性的混合編輯子任務中占據主導地位(3.18)。這一成功驗證了本文的觀點,即 Builder 可以將復合指令解析為原子子任務,并動態生成工作流以協調專用工具。

定性結果:如下圖 10 所示,本文的方法在編輯準確性和視覺真實感方面優于其他方法。編輯與預期區域高度一致,并保持高感知質量。

工具的消融研究
任務專用工具的必要性。為了驗證 Lego-Edit 的設計,本文將其任務專用架構與使用相同設置的統一替代方案進行比較。三個獨立的 LoRA 適配器在每個任務上訓練了 10K 樣本,而統一模型使用了一個合并的 30K 數據集。如下表 2 所示,專用模型的表現優于統一模型(例如,在顏色改變中為 6.83 對比 5.94)。在統一模型中增加 LoRA 等級沒有帶來收益。定性結果顯示在統一設置中頻繁出現任務混淆,這突顯了專用化對編輯保真度的重要性。

對 Builder 的消融研究
強化學習訓練的有效性。 下表 3 中 GEdit-Bench 的消融實驗顯示了本文漸進式強化學習訓練的有效性。從 Builder-SFT 開始,其在簡單和復雜成功率以及 VIEScores 上都優于基準模型 MiMo-VL-7B 和強大的 MLLM GPT-4o。隨后使用真實數據的強化學習訓練(Builder-RL w/ GT)在簡單任務中實現了 100% 的成功率,在復雜任務中實現了 83.6% 的成功率,并且 VIEScores 更高。最終的無 GT 強化學習訓練(Builder-RL w/o GT)保持了 100% 的簡單任務成功率,將復雜任務成功率提升至 99.0%,并達到了最高的 VIEScores。盡管簡單任務的準確率相同,這種復雜任務的改進表明參數輸出更為準確,并增強了工具接口的組合理解能力,使得在靈活指令下的執行更加可靠。

工具組合的有效性。 為了評估在 Lego-Edit 中顯式工具組合的影響,本文檢查了其在 GEdit-Bench 子任務中的表現。如下表 4 所示,將 RES 分割掩碼與 RCM 集成提高了顏色改變和材料修改的 G O,突出顯示了 RES 空間控制的優勢。同樣,將 CAP-PRED 文本描述納入 STYLE 提升了風格遷移中的 G O,因為文本提示加強了風格化輸出與源圖像之間的語義對齊。這些結果表明,工具組合提高了性能,證實了 Lego-Edit 協調專用工具以實現卓越編輯性能的能力。

結論
Lego-Edit,這是一種基于agent的新框架,用于生成式指令驅動的圖像編輯。它使用經過RL微調的MLLM(Builder)來協調模型級別的編輯工具(Bricks),并通過兩個關鍵創新實現:細粒度工具允許靈活組合和精確控制,以及三階段漸進式RL訓練策略,通過對開放域指令的無GT反饋來增強推理和工具組織能力。大量實驗表明,Lego-Edit在GEdit-Bench和ImgBench上表現出色,展示了在處理靈活請求和整合新工具而無需重新訓練方面的卓越準確性和泛化能力。未來的工作將擴展工具集以實現更廣泛的功能,并探索基于agent的反饋以提高魯棒性。
本文轉自AI生成未來 ,作者:AI生成未來

















