GitHub一周2000星!國產(chǎn)統(tǒng)一圖像生成模型神器升級,理解質(zhì)量雙up,還學(xué)會了“反思”
國產(chǎn)開源統(tǒng)一圖像生成模型,技術(shù)重大升級!
新進(jìn)展來自智源研究院:
一模支持文生圖、圖像編輯、主題驅(qū)動圖像生成的OmniGen,2.0新版本正式發(fā)布。
具體來說,OmniGen2在保持簡潔架構(gòu)的基礎(chǔ)上,顯著增強(qiáng)了上下文理解能力、指令遵循能力和圖像生成質(zhì)量。
同時,OmniGen2全面繼承了其基座多模態(tài)大模型在上下文理解與生成方面的能力,同步支持圖像和文字生成,進(jìn)一步打通了多模態(tài)技術(shù)生態(tài)。
模型上線即引發(fā)開源社區(qū)廣泛討論,發(fā)布一周GitHub星標(biāo)突破2000,X上相關(guān)話題瀏覽量數(shù)十萬。

現(xiàn)在科研體驗(yàn)版已開放,可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力(鏈接見文末)。
官方還承諾,OmniGen2模型權(quán)重、訓(xùn)練代碼及訓(xùn)練數(shù)據(jù)將全面開源,為社區(qū)開發(fā)者提供優(yōu)化與擴(kuò)展的基礎(chǔ)。
多種玩法,提示詞就能解鎖
OmniGen2的玩法簡單,只需要輸入提示詞,就能解鎖豐富的圖像編輯與生成能力。
1. 基于自然語言指令的圖像編輯
OmniGen2支持基于自然語言指令的圖片編輯功能,可實(shí)現(xiàn)局部修改操作,包括物體增刪、顏色調(diào)整、人物表情修改、背景替換等。

2. 多模態(tài)上下文參考的圖像生成
OmniGen2可從輸入圖像中提取指定元素,并基于這些元素生成新圖像。例如,將物品/人物置于新的場景中。當(dāng)前OmniGen2更擅長保持物體相似度而不是人臉相似度。

3. 文生圖
OmniGen2能夠生成任意比例的圖片。

從創(chuàng)新架構(gòu)到圖像生成反思機(jī)制
再來看看具體技術(shù)細(xì)節(jié)。
分離式架構(gòu)+雙編碼器策略
OmniGen2采取了分離式架構(gòu)解耦文本和圖像,同時采用了ViT和VAE的雙編碼器策略。
不同于其他工作,ViT和VAE獨(dú)立作用于MLLM和Diffusion Transformer中,提高圖像一致性的同時保證原有的文字生成能力。

數(shù)據(jù)生成流程重構(gòu)
OmniGen2也在探索解決阻礙領(lǐng)域發(fā)展的基礎(chǔ)數(shù)據(jù)和評估方面的難題。
相關(guān)的開源數(shù)據(jù)集大多存在固有的質(zhì)量缺陷,尤其是在圖像編輯任務(wù)中,圖像質(zhì)量和質(zhì)量準(zhǔn)確度都不高。而對于圖片上下文參考生成任務(wù),社區(qū)中缺乏相應(yīng)的大規(guī)模多樣化的訓(xùn)練數(shù)據(jù)。這些缺陷極大地導(dǎo)致了開源模型和商業(yè)模型之間顯著的性能差距。
為了解決這個問題,OmniGen2開發(fā)了一個從視頻數(shù)據(jù)和圖像數(shù)據(jù)中生成圖像編輯和上下文參考數(shù)據(jù)的構(gòu)造流程。

圖像生成反思機(jī)制
受到大型語言模型自我反思能力的啟發(fā),OmniGen2還探索了將反思能力整合到多模態(tài)生成模型中的策略。
基于OmniGen2的基礎(chǔ)模型構(gòu)建了面對圖像生成的反思數(shù)據(jù)。
反思數(shù)據(jù)由文本和圖像的交錯序列組成,首先是一個用戶指令,接著是多模態(tài)模型生成的圖像,然后是針對之前生成輸出的逐步反思。
每條反思都涉及兩個關(guān)鍵方面:
- 對與原始指令相關(guān)的缺陷或未滿足要求的分析;
- 為解決前一幅圖像的局限性而提出的解決方案。

經(jīng)過訓(xùn)練的模型具備初步的反思能力,未來目標(biāo)是進(jìn)一步使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。

新基準(zhǔn)
OmniGen2在已有基準(zhǔn)上取得了頗具競爭力的結(jié)果,包括文生圖,圖像編輯。

然而,對于圖片上下文參考生成(in-context generation)任務(wù),目前還缺乏完善的公共基準(zhǔn)來系統(tǒng)地評估和比較不同模型的關(guān)鍵能力。
現(xiàn)有的上下文圖像生成基準(zhǔn)在捕獲實(shí)際應(yīng)用場景方面存在不足。它們不考慮具有多個輸入圖像的場景,并且受到上下文類型和任務(wù)類型的限制。同時,先前的基準(zhǔn)使用CLIP-I和DINO指標(biāo)來評估上下文生成的圖像的質(zhì)量。這些指標(biāo)依賴于輸入和輸出之間的圖像級相似性,這使得它們不適用于涉及多個主題的場景,并且缺乏可解釋性。
為了解決這一限制,團(tuán)隊(duì)引入了OmniContext基準(zhǔn),其中包括8個任務(wù)類別,專門用于評估個人、物體和場景的一致性。
數(shù)據(jù)的構(gòu)建采用多模態(tài)大語言模型初篩和人類專家手工標(biāo)注相結(jié)合的混合方法。

作為首個在該基準(zhǔn)上接受評估的模型,OmniGen2取得了7.18的總體得分,超越了BAGEL等其他領(lǐng)先的開源模型,證明其能較好地平衡提示詞遵循能力和主體一致性,在多種任務(wù)場景下都能穩(wěn)定發(fā)揮 。
此外,OmniGen2依托智源研究院自研的大模型訓(xùn)練推理并行框架FlagScale,開展推理部署優(yōu)化工作。通過深度重構(gòu)模型推理鏈路,并融合TeaCache緩存加速策略,實(shí)現(xiàn)32%的推理效率提升,大幅縮短響應(yīng)時間并強(qiáng)化服務(wù)效能。
同時,框架支持一鍵式跨機(jī)多實(shí)例彈性部署,有效提升集群資源整體利用率。團(tuán)隊(duì)將持續(xù)推進(jìn)軟硬協(xié)同優(yōu)化,構(gòu)建高效推理部署能力體系。
OmniGen2的模型權(quán)重、訓(xùn)練代碼及訓(xùn)練數(shù)據(jù)將全面開源,為開發(fā)者提供優(yōu)化與擴(kuò)展的新基礎(chǔ),推動統(tǒng)一圖像生成模型從構(gòu)想加速邁向現(xiàn)實(shí)。
OmniGen2相關(guān)鏈接
Github: https://github.com/VectorSpaceLab/OmniGen2/
論文:https://arxiv.org/abs/2506.18871
模型:https://huggingface.co/BAAI/OmniGen2
科研體驗(yàn)版鏈接:https://genai.baai.ac.cn






























