Qwen-Image-Edit發(fā)布:圖像編輯終于能“懂語(yǔ)義+改細(xì)節(jié)”了 原創(chuàng)
在AI快速重塑創(chuàng)作方式的當(dāng)下,一張圖片的生成已經(jīng)不再稀奇,真正難的是如何在已有圖像上進(jìn)行精準(zhǔn)、自然且語(yǔ)義一致的修改。比如,能否只改動(dòng)畫面的一部分,卻讓整體依然協(xié)調(diào)?能否在不破壞細(xì)節(jié)的情況下,把一幅畫換個(gè)角度重現(xiàn)?又能否在海報(bào)里修改中英文文字,同時(shí)保持原有的字體和排版?
這正是阿里巴巴Qwen團(tuán)隊(duì)在 2025年8月推出的 Qwen-Image-Edit 想要解決的問題。它基于Qwen-Image(200億參數(shù))進(jìn)化而來(lái),定位為一款指令驅(qū)動(dòng)的圖像編輯模型,不僅強(qiáng)化了“語(yǔ)義編輯”和“外觀編輯”兩大核心能力,還保持了Qwen-Image在中英文復(fù)雜文字渲染上的獨(dú)家優(yōu)勢(shì)。難道說(shuō),真的要和PS說(shuō)再見了嗎?
更重要的是,它已經(jīng)與 Qwen Chat 集成,并開源在 Hugging Face 和 GitHub 上,開發(fā)者與創(chuàng)作者都可以直接使用。
接下來(lái),我們就詳細(xì)深入了解下Qwen-Image-Edit。
1. 架構(gòu)升級(jí):雙編碼機(jī)制讓編輯更自然

Qwen-Image-Edit依舊延續(xù)了 Multimodal Diffusion Transformer (MMDiT) 架構(gòu),但在圖像編輯環(huán)節(jié),它引入了一個(gè)關(guān)鍵創(chuàng)新:雙編碼機(jī)制。
- 高層語(yǔ)義信息:由Qwen2.5-VL多模態(tài)大模型提取,用于保持物體身份和場(chǎng)景一致性;
- 低層重建細(xì)節(jié):由變分自編碼器(VAE)處理,用于保留未修改區(qū)域的紋理和顏色。
兩路信息被拼接輸入MMDiT的圖像流中,實(shí)現(xiàn)了**“語(yǔ)義一致+視覺保真”**的平衡。例如:旋轉(zhuǎn)一個(gè)角色時(shí),它依然是原來(lái)的角色,不會(huì)因?yàn)橐暯亲兓白兡槨薄?/p>
在位置編碼上,Qwen團(tuán)隊(duì)還提出了 MSRoPE(多模態(tài)可擴(kuò)展旋轉(zhuǎn)位置編碼),通過引入“幀維度”區(qū)分修改前后圖像,使得模型可以更好地處理 文本-圖像到圖像(TI2I)編輯任務(wù)。
2. 三大核心能力:語(yǔ)義、外觀、文字精準(zhǔn)編輯
與傳統(tǒng)的“擦除+替換”不同,Qwen-Image-Edit的編輯是層次化的,覆蓋了三大維度:
2.1 語(yǔ)義編輯(Semantic Editing)
這是它最具突破性的地方。
- IP 創(chuàng)作:可以從一只卡皮巴拉(Qwen吉祥物)生成不同風(fēng)格、不同場(chǎng)景下的形象,甚至制作一整套 MBTI主題表情包。
- 視角合成:支持90°甚至180°旋轉(zhuǎn),能讓你看到原本不可見的背面,PSNR指標(biāo)超越專門的視角生成模型。
- 風(fēng)格遷移:把普通人像轉(zhuǎn)化為“吉卜力工作室”風(fēng)格,同時(shí)保持人物特征不丟失。


2.2 外觀編輯(Appearance Editing)
偏向細(xì)節(jié)層面的修改:
- 添加元素:如在街景中插入招牌,并自動(dòng)生成逼真的倒影;
- 移除元素:去掉人像中的發(fā)絲或雜物,卻不影響周圍環(huán)境;
- 精細(xì)修改:改變字母顏色、調(diào)整背景或服飾等。

2.3 文字編輯(Text Editing)
這是Qwen的獨(dú)家優(yōu)勢(shì)。它支持中英文雙語(yǔ)文字精準(zhǔn)修改,包括新增、刪除、替換,同時(shí)能保持原有的字體、字號(hào)和排版不變。 這意味著:一張中文海報(bào)中的錯(cuò)別字,可以逐步框選并糾正,直到得到完全正確的版本;英文海報(bào)上的“Hope”能瞬間改成“Qwen”。

3. 數(shù)據(jù)與訓(xùn)練:大規(guī)模、多任務(wù)、強(qiáng)化偏好對(duì)齊
在訓(xùn)練層面,Qwen-Image-Edit延續(xù)了Qwen-Image的超大規(guī)模數(shù)據(jù)集(數(shù)十億圖文對(duì)),涵蓋 自然、設(shè)計(jì)、人物、合成 四大類,并加入了針對(duì)文字的特殊合成策略,解決中文長(zhǎng)尾字符的稀缺問題。
訓(xùn)練采用 多任務(wù)范式:
- T2I(文本生成圖像)、
- I2I(圖像轉(zhuǎn)圖像)、
- TI2I(文本+圖像到圖像)。
為增強(qiáng)編輯效果,它還融合了新視角合成與深度估計(jì),其中深度估計(jì)部分使用 DepthPro 作為教師模型,提高了空間感一致性。
在優(yōu)化階段,Qwen團(tuán)隊(duì)結(jié)合了 有監(jiān)督微調(diào) + 偏好對(duì)齊(DPO、GRPO),確保模型不僅性能優(yōu)異,也能貼近人類的使用習(xí)慣。
4. 實(shí)測(cè)表現(xiàn):全面領(lǐng)先同類模型
在公開基準(zhǔn)測(cè)試中,Qwen-Image-Edit交出了一份亮眼成績(jī)單:
- GEdit-Bench:英語(yǔ)7.56、中文7.52,超過 GPT Image 1 和 FLUX.1。
- ImgEdit:整體4.27,在對(duì)象替換(4.66)和風(fēng)格變化(4.81)上表現(xiàn)突出。
- KITTI 深度估計(jì):AbsRel 0.078,與專門的DepthAnything v2不相上下。
更有意思的是,在 AI Arena人工評(píng)測(cè) 中,它在API類模型中排名第三,但在文字渲染能力上獨(dú)占鰲頭。
5. 部署與應(yīng)用:開發(fā)者和創(chuàng)作者的雙重利器
Qwen-Image-Edit已經(jīng)開放了多種使用方式:
- Hugging Face Diffusers:直接調(diào)用,幾行Python代碼就能運(yùn)行:
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")
image = Image.open("input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")- 阿里云 Model Studio:提供大規(guī)模推理的API;
- 開源代碼:已在GitHub發(fā)布,并采用Apache 2.0開源協(xié)議,方便二次開發(fā)。
這意味著,設(shè)計(jì)師可以快速修圖,品牌方能批量生成IP形象,甚至個(gè)人也能低門檻修正AI繪圖錯(cuò)誤。
6. 展望:從圖像到視頻與3D
Qwen-Image-Edit不僅是一款圖像編輯工具,它更像是多模態(tài)交互接口的前哨。通過對(duì)“理解+生成”的統(tǒng)一建模,它為未來(lái)的視頻編輯、3D內(nèi)容生成鋪平了道路。
可以想象,當(dāng)我們能用一句話讓視頻片段重拍一個(gè)角度、讓三維模型換一個(gè)風(fēng)格時(shí),內(nèi)容生產(chǎn)將迎來(lái)真正的“編輯自由”。
? 總結(jié)
Qwen-Image-Edit代表了多模態(tài)AI在圖像編輯方向上的一次關(guān)鍵躍遷:
- 它不僅能精準(zhǔn)修改圖像外觀,還能在語(yǔ)義層面保證連貫性;
- 它把中英文文字編輯拉到了新的高度;
- 它通過開源和API降低了使用門檻,真正走向產(chǎn)業(yè)化落地。
當(dāng)AI繪畫從“生成”走向“編輯”,這背后意味著一個(gè)全新的創(chuàng)作邏輯——AI不僅是畫筆,更是橡皮和裁紙刀。未來(lái),誰(shuí)能掌握這樣的工具,誰(shuí)就能更快、更好地迭代自己的視覺表達(dá)。
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















