比NanoBanana更擅長中文和細節(jié)控制!兔展&北大Uniworld V2刷新SOTA
比Nano Banana更擅長P細節(jié)的圖像編輯模型來了,還是更懂中文的那種。
就像這樣,要求AI“把中間白色衣服戴口罩女生的手勢改成OK”,原圖如下:

這個名為UniWorld-V2的模型能做到完美修改。

而Nano Banana則未能成功get到提示詞的意圖。

模型背后,是兔展智能&北京大學的UniWorld團隊的最新技術(shù)成果:
他們提出了一種名為UniWorld-R1的創(chuàng)新型圖像編輯后期訓練框架,該框架首次將強化學習(RL)策略優(yōu)化應(yīng)用于統(tǒng)一架構(gòu)的圖像編輯模型,是第一個視覺強化學習框架。基于此,他們推出了新一代模型UniWorld-V2。
UniWorld-V2在GEdit-Bench和ImgEdit等行業(yè)權(quán)威基準測試中取得了SOTA成績,在綜合表現(xiàn)上超越了如OpenAI的GPT-Image-1等頂尖閉源模型。

一起來看詳細技術(shù)報告。

強大的中文字體掌握與精細化可控
功能上,UniWorld-V2在實際應(yīng)用中展現(xiàn)了SFT模型難以企及的精細化控制力。
中文字體掌握
在論文的“海報編輯”示例中,模型能精準理解指令,并渲染出“月滿中秋”和“月圓人圓事事圓”等筆畫復(fù)雜的藝術(shù)中文字體,效果清晰、語義準確。

能做到想改啥字改啥字,只需一句Prompt。

精細化空間可控
在“紅框控制”任務(wù)中,用戶可以通過畫框(如紅色矩形框)來指定編輯區(qū)域,模型能夠嚴格遵守該空間限制,實現(xiàn)“將鳥移出紅框”等高難度精細操作。

全局光影融合
模型能深刻理解“給場景重新打光”等指令,使物體自然融入場景之中,讓畫面變得更統(tǒng)一和諧,并且光影融合度極高。

核心創(chuàng)新:UniWorld-R1框架
實現(xiàn)以上功能,研究團隊的核心創(chuàng)新是提出了UniWorld-R1框架。
傳統(tǒng)的圖像編輯模型依賴監(jiān)督微調(diào)(SFT),普遍存在對訓練數(shù)據(jù)過擬合、泛化能力差的問題。此外,還存在面對編輯指令和任務(wù)的多樣性,缺乏通用獎勵模型的瓶頸。
UniWorld-R1框架的核心優(yōu)勢在于:
首個基于強化學習的統(tǒng)一架構(gòu):UniWorld-R1是業(yè)內(nèi)首個基于策略優(yōu)化(RL)的圖像編輯后期訓練框架。它采用了Diffusion Negative-aware Finetuning (擴散負向感知微調(diào),DiffusionNFT)技術(shù),這是一種無需似然估計的策略優(yōu)化方法,訓練更高效,并且允許使用高階采樣器。
MLLM作為免訓練獎勵模型:針對編輯任務(wù)多樣性導致缺乏通用獎勵模型的挑戰(zhàn),UniWorld-R1開創(chuàng)性地使用多模態(tài)大語言模型(MLLM,如GPT-4V)作為統(tǒng)一的、免訓練的獎勵模型。通過利用MLLM的輸出logits(而非單一評分)來提供精細化的隱式反饋,極大地提升了模型對人類意圖的對齊能力。
如下圖所示,UniWorld-R1的pipeline主要包括三個部分:采樣、MLLM評分和DiffusionNFT,這三個部分逐步將模型與最優(yōu)策略對齊。

全面超越SOTA,分數(shù)領(lǐng)跑
實驗方面,研究團隊整理了一個包含27572個基于指令的編輯樣本的數(shù)據(jù)集。

這些樣本來自LAION、LexArt和UniWorldV1。為了增強任務(wù)多樣性,加入了額外的文本編輯和紅框控制任務(wù),共形成九種不同的任務(wù)類型。
研究團隊訓練FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509]和UniWorld-V2作為基礎(chǔ)模型,并采用ImgEdit和GEdit-Bench作為測試基準。前者將多種專門任務(wù)統(tǒng)一為一個通用框架以進行全面模型比較,后者通過豐富的自然語言指令評估通用圖像編輯。
在GEdit-Bench基準測試中,UniWorld-V2(基于UniWorld-R1訓練)獲得了7.83的驚人高分,顯著優(yōu)于GPT-Image-1 [High](7.53分)和Gemini 2.0(6.32分)。在ImgEdit基準上,UniWorld-V2同樣以4.49分領(lǐng)跑,超越了所有已知的開源和閉源模型。
更重要的是,UniWorld-R1框架具有極強的通用性。當該框架被應(yīng)用于Qwen-Image-Edit和FLUX-Kontext等其他基礎(chǔ)模型時,同樣帶來了顯著的性能提升,充分證明了其作為通用后期訓練框架的巨大價值。

該方法顯著增強了所有基礎(chǔ)模型在ImgEdit基準上的表現(xiàn)。對于FLUX.1-Kontext [Dev],整體分數(shù)顯著提高,從3.71上升到4.02,超過了較強的Pro版本(4.00)。同樣,在應(yīng)用于Qwen-Image-Edit [2509]時,該方法將其分數(shù)從4.35提升到4.48,實現(xiàn)了開源模型中的最先進性能,并超越了頂級閉源模型如GPT-Image-1。
除了總得分的提升之外,UniWorld-FLUX.1-Kontext在“調(diào)整”、“提取”和“移除”維度上表現(xiàn)出顯著的性能提升,而 UniWorld-Qwen-Image-Edit則在“提取”和“混合”維度上表現(xiàn)優(yōu)異。此外,UniWorld-V2達到了最佳性能。這一現(xiàn)象表明,該方法能夠解鎖和顯著提高基礎(chǔ)模型中之前未開發(fā)的潛力。

在域外GEdit-Bench上,UniWorld-R1為三種模型展示了強大的泛化性能。它使FLUX.1-Kontext [Dev] 模型的總分從6.00提升到6.74,表現(xiàn)超越了Pro版本(6.56)。對于Qwen-Image模型,其得分從7.54增加到7.76。同時,UniWorld-V2在這一基準測試中建立了新的最先進水平,超越了所有列出的模型,包括Qwen-Image-Edit(7.56)和GPT-Image-1(7.53)。這一結(jié)果確認該方法有效地保留和增強了在未見數(shù)據(jù)分布上的核心編輯能力,展示了強大的泛化能力。
為了全面評估,研究人員還對FLUX.1和Qwen系列進行了人工偏好研究,參與者將本文的微調(diào)模型與其基礎(chǔ)模型和更強大的版本進行比較。他們被要求在兩個維度上選擇最佳結(jié)果:指令對齊和圖像質(zhì)量。
用戶在所有標準中更傾向于選擇UniWorld-FLUX.1-Kontext而不是FLUX.1-Kontext [Dev]。此外,它在編輯能力上表現(xiàn)出較強的優(yōu)勢,尤其是在與更強大的官方版本FLUX.1-Kontext [Pro]的比較中。總體而言,UniWorld-FLUX.1-Kontext因其優(yōu)越的指令遵循能力而獲得更多的喜歡,盡管官方模型在圖像質(zhì)量上稍微勝出。這證實了該方法能夠有效地引導模型生成更符合人類偏好的輸出。

此次發(fā)布的UniWorld-V2,是基于團隊早先的UniWorld-V1構(gòu)建的。UniWorld-V1作為業(yè)內(nèi)首個統(tǒng)一理解與生成的模型,其開源時間領(lǐng)先于谷歌Nano Banana等后續(xù)知名模型長達三個月,為多模態(tài)領(lǐng)域的統(tǒng)一架構(gòu)探索奠定了重要基礎(chǔ)。
另外,UniWorld-R1的論文、代碼和模型均已在GitHub和Hugging Face平臺公開發(fā)布,以支持后續(xù)研究。
論文地址:
https://arxiv.org/abs/2510.16888
GitHub鏈接:
https://github.com/PKU-YuanGroup/UniWorld





























