修圖界ChatGPT誕生!JarvisArt:解放人類藝術創造力——用自然語言指揮200+專業工具 精華

項目主頁: https://jarvisart.vercel.app/
國內主頁:https://www.jarvisart.site/
論文全文: https://arxiv.org/pdf/2506.17612
GitHub: https://github.com/LYL1015/JarvisArt
Huggingface Daily Paper :??https://huggingface.co/papers/2506.17612??

一、研究背景與動機
行業痛點與突破
在數字攝影時代,照片潤飾已成為創作流程中不可或缺的一環。然而,專業級工具(如Adobe Lightroom)的復雜操作門檻與普通用戶的高效需求之間存在顯著矛盾。傳統自動化工具(雖能響應自然語言指令,卻在內容保真度、局部細節控制和高分辨率支持上表現不足。為此,我們提出 JarvisArt —— 首個基于多模態大語言模型(MLLM)的智能潤飾代理,深度融合Lightroom生態,通過藝術推理與工具編排,實現媲美專業級的人機協作潤飾體驗。
攝影后期的"專業鴻溝"
- 專業工具門檻高:Lightroom等工具需多年經驗才能精通
- AI方案不完善:生成式模型破壞原圖細節/無法精細控制/分辨率受限
- 創意表達受限:普通用戶難以實現專業級藝術效果
JarvisArt的革新性方案
"首個基于MLLM的藝術家代理,用自然語言指揮200+專業工具" ——將專業修圖師的思維過程轉化為AI可執行的推理鏈
二、技術核心亮點
1. MLLM驅動的藝術創作中樞
- 跨模態意圖解析:聯合文本指令、源圖像及興趣區域(如人物),精準解碼用戶創作意圖。
- 戰略級推理能力:模擬專業藝術家的決策流程,構建從全局風格到局部細節的分層修圖計劃。
- Lightroom工具矩陣集成:無縫對接200+種原生操作(如曝光調整、色彩分級、局部蒙版),支持非破壞性編輯。
2. MMArt數據集:藝術潤飾的里程碑
- 55,000+高質量樣本:包含5,000組標準指令樣本與50,000組鏈式思維(Chain-of-Thought)增強樣本。
- 多粒度標注體系:每條樣本包含三元組?
?(用戶指令, 源圖像, 修圖操作配置)??,覆蓋肖像、風景、靜物等多樣場景。 - 真實用戶意圖生成:通過逆向工程真實Lightroom編輯日志,生成多樣化創意指令(如“增強黃昏氛圍”、“復古膠片風格”)。
3. GRPO-R算法:面向潤飾的強化學習革新
- 多維獎勵信號設計:
a.格式獎勵(Rf):強制輸出符合??<think>??? 與??<answer>?? 標簽的結構化格式,確保可解析性。
b.潤飾操作準確性獎勵(Rroa):評估工具選擇與參數配置的精確性。
c.感知質量獎勵(Rpq):基于感知損失函數量化修圖結果的視覺保真度。
4. Agent-to-Lightroom協議(A2L)
- 標準化通信接口:定義客戶端-服務端交互協議,支持Lua腳本自動生成與執行狀態回傳。
- 沙盒化執行環境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
- 異步處理機制:支持批量任務提交與后臺渲染,提升高分辨率圖像處理效率。
三、方法詳解
1. JarvisArt系統架構
JarvisArt遵循“理解→推理→執行”三階段流程:
- 意圖解析:MLLM解析用戶指令(如“提亮膚色并添加懷舊色調”)與源圖像,識別目標區域(如人臉蒙版)。
- 戰略規劃:生成分步潤飾計劃(例如:先調整白平衡→局部提亮面部→應用漸變濾鏡)。
- 工具編排:將操作序列轉換為Lightroom可執行的ROC文件(Retouching Operations Configuration),自動調用對應工具與參數。

JarvisArt端到端修圖流程示意圖
2. MMArt數據集構建
數據生成流水線包含三大階段:
- 源-編輯-配置樣本的生成:通過收集原始圖像并結合全局與局部藝術預設,在 Lightroom 中進行專家級編輯,生成高質量的圖像對(源圖像與編輯圖像)及詳細的修圖操作記錄,形成三元組數據。
- 用戶指令生成:利用多模態大模型模擬不同用戶角色(普通用戶與專業編輯),根據圖像內容和編輯意圖生成多樣化、自然語言形式的指令,覆蓋全局風格調整與局部區域修改。
- 鏈式思維數據生成:基于圖像、指令和修圖操作配置文件,使用視覺推理模型生成初步的 Chain-of-Thought(CoT)注釋,并通過迭代優化去除冗余、提升邏輯一致性,最終生成簡潔且上下文相關的推理過程。

數據生成的pipeline

數據樣例
3. GRPO-R算法設計
(1) 監督微調(SFT)階段
- 目標:在50,000個 Chain-of-Thought(CoT)標注樣本上進行監督訓練,使模型掌握基礎的推理能力、用戶意圖理解與Lightroom工具調用流程。
- 訓練方式:采用自回歸語言建模策略,逐token生成結構化響應,包括推理過程?
?<think>??? 和最終操作指令??<answer>??。
該階段通過大量高質量 CoT 樣本訓練 JarvisArt 建立“理解→推理→決策”的基本流程,并確保輸出格式統一、可解析。
(2) 強化學習階段(GRPO-R)
在 SFT 階段奠定基礎后,引入 GRPO-R(Group Relative Policy Optimization for Retouching)算法,進一步提升模型的推理深度、工具調用準確性和視覺修圖質量。GRPO-R 是一種基于多維獎勵信號的強化學習框架,專為圖像潤飾任務定制。
- 獎勵函數組合:

各獎勵項說明如下:
- 格式獎勵(Rf):確保模型輸出符合規定的結構格式,例如正確使用<think> 和<answer> 標簽,提升系統解析的穩定性。
- 操作準確性獎勵(Rroa):衡量模型調用圖像潤飾工具的準確程度,包括工具名稱匹配、參數類型一致性和數值誤差,幫助模型掌握專業級 Lightroom 操作。
- 感知質量獎勵(Rpq):評估潤飾后圖像的視覺效果,結合顏色分布一致性與像素級相似度,確保輸出圖像質量。

訓練框架圖
4. 革命性A2L協議

- 首創雙向通信協議實現無縫集成。
- 用戶可隨時介入調整工作流。
- 標準化通信接口:定義客戶端-服務端交互協議,支持Lua腳本自動生成與執行狀態回傳。
- 沙盒化執行環境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
- 異步處理機制:支持批量任務提交與后臺渲染,提升高分辨率圖像處理效率。
四、實驗結果
1. MMArt-Bench評測霸主

2. 視覺效果


3. 用戶偏好

實驗分析總結:
- 定量優勢:JarvisArt 在內容保真度(L1×102)和指令遵循能力(O)上均達到行業領先水平,特別是在封閉源模型對比中表現突出。
- 視覺表現:通過 Lightroom 集成工作流,JarvisArt 成功解決了競爭對手常見的“恐怖谷”問題,確保潤飾結果既符合用戶意圖又保持高質量。
- 用戶偏好:JarvisArt在易用性、編輯效率和整體滿意度方面表現優異,絕大多數用戶認為其無需技術支援即可獨立使用、操作流暢,并愿意長期使用。
五、實際Gradio應用案例


六、結語與展望
JarvisArt重新定義了智能潤飾的可能性:
- 技術范式革新:將MLLM從“指令跟隨者”升級為“藝術協作者”,推動人機共創邊界。
- 產業應用潛力:賦能攝影師、設計師提升工作效率,降低專業工具使用門檻。
- 未來方向:探索視頻潤飾擴展、跨軟件生態集成(如Photoshop、Capture One)。
本文轉自AI生成未來 ,作者:AI生成未來

















