國產王炸!上海AI Lab開源Lumina-DiMOO,開創多模態理解與生成新范式
上海人工智能實驗室,上海創新研究院,上海交大,南京大學,悉尼大學,港中大,清華,共同推出了被譽為新一代多模態生成與理解統一模型的Lumina-DiMOO。

“An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding”,翻譯過來就是“面向多模態生成與理解的全方位擴散大語言模型”。關鍵詞:“全方位”。這背后藏著它的獨門絕技——“全離散擴散架構”。
傳統多模態架構
文本是離散的、有邏輯結構的符號序列;圖像是連續的、由像素網格構成的空間信息。AI面臨的難題,就是如何讓文本和圖像聯系起來。這就是多模態AI技術的核心挑戰:統一表示與對齊。
解決這個問題的思路,就像是給“AI外星人”都教一種“宇宙通用語”。模型需要把文本、圖像、音頻這些五花八門的數據,統統映射到一個共享的、高維的“語義空間”里。在這個空間里,不同的數據格式被剝離,只剩下最核心的“意義”。
開創這一思路的先驅之一,就是大名鼎鼎的CLIP模型。它的訓練方式簡單粗暴又極其有效,叫做“對比學習”。就像一個老師,拿出海量的“圖片-文字”配對作業,告訴模型:“看,這張圖和這段話是天生一對,你們要靠得近一點。”同時又指著另一對不匹配的圖文說:“你們倆八竿子打不著,離遠點!”經過億萬次這樣的“拉近”和“推遠”訓練后,模型就學會了這種“宇宙通用語”。它能理解,“蘋果”這個詞,既可以指向一張紅彤彤的水果圖片,也可以指向一個印著被咬了一口蘋果標志的手機圖片。這種跨模態的理解和對齊能力,是后續所有多模態生成模型的基礎。
解決了語言問題,接下來就是怎么蓋樓,也就是模型的架構設計。目前,主流的多模態大模型架構,主要是在強大的Transformer基礎上進行擴展和融合。你可以把Transformer想象成一個超級智能的“信息加工廠”,它最擅長處理序列數據,并能通過“注意力機制”抓住信息中最關鍵的部分。但問題來了,不同模態的數據,這些“原材料”,該在哪個環節送進加工廠呢?這就催生了三種主流的“融合策略”。
“早期融合”。這種方法簡單直接,就像做大雜燴。它在數據處理的最開始階段,就把圖像特征、文本特征等粗暴地拼接在一起,或者直接相加,然后一股腦兒地喂給一個共享的Transformer編碼器。優點是簡單,計算量相對小。缺點也很明顯,不同模態的數據特性差異巨大,這么早地“生拉硬拽”在一起,很可能會互相干擾,導致信息損失,效果往往不盡如人意。
“中期融合”,也叫“交叉融合”。它會讓文本和圖像等不同的原材料,先進各自的“專屬廚房”(獨立的編碼器)進行初步加工,提取出各自的精華特征。然后,在加工廠的核心區域,通過一個叫做“交叉注意力機制”,讓這些半成品互相“交流”。比如,圖像特征可以“看一看”文本特征里哪些詞是重點,文本特征也可以“瞅一瞅”圖像里哪些區域最關鍵。這種方式能夠實現更深層次的信息交互,效果通常比早期融合好得多,也是目前很多高性能模型采用的策略。
“晚期融合”。這種方法就像是各自做完一道拿手菜,最后再拼成一個套餐。不同模態的數據從頭到尾都走自己的獨立處理流水線,直到最后輸出結果的階段,才把各自的結論融合起來做最終決策。這種方法保留了各模態信息的獨立性,但在需要深度交互的任務上,往往會因為“溝通”太少而力不從心。
Lumina-DiMOO的創新之處,就在于它沒有在這三種傳統路徑上修修補補,而是用一種全新的、更底層的邏輯,對整個多模態生成與理解的過程進行了重構。
Lumina-DiMOO四大“核武器”
傳統的多模態生成模型,比如一些早期的文本到圖像模型,采用的是“自回歸”(AR)范式。就像我們寫文章一樣,一個字一個字地往外蹦。模型生成圖像時,也是一個像素塊一個像素塊地生成,后一個像素塊的生成要依賴于前面所有已生成的像素塊。這種方式邏輯清晰,但缺點是致命的:慢!而且是一維的、串行的過程,很容易出現誤差累積,生成到后面就“跑偏了”。
后來,擴散模型異軍突起,它反其道而行之。擴散模型生成圖像的過程,更像一位雕塑家。它先從一整塊隨機噪聲(可以想象成一塊混沌的“大理石”)開始,然后通過一個逐步去噪的過程,一步一步地把有意義的結構和細節“雕刻”出來,直到最后呈現出一幅清晰的圖像。這個過程是并行的,質量更高,但早期的擴散模型在處理不同模態,尤其是離散的文本時,總有點水土不服。
Lumina-DiMOO的開創性在于,它首次實現了“全離散擴散建模”(Fully Discrete Diffusion Modeling)。它不僅用擴散的方式處理圖像,還巧妙地把文本等離散數據也納入了這個統一的擴散框架中。它將所有模態的數據都看作是可以被逐步“去噪”和“生成”的對象。這種統一的視角,使得模型內部的結構異常簡潔和優雅,避免了不同模態處理流程“打架”的問題。這樣做的好處是顯而易見的:不僅生成質量大幅提升,更重要的是,采樣效率得到了前所未有的提升。

在Lumina-DiMOO的世界里,生成和理解不再是兩件獨立的事。它支持的任務范圍之廣,幾乎涵蓋了當前圖像多模態領域所有的熱門應用。從最基礎的“文本到圖像生成”,“圖像到圖像生成”,或者“擦掉照片里那個亂入的路人”,甚至主題驅動生成等等一系列任務,它都能心領神會。

“復古皮革封面書籍,封面燙金寫著‘Knowledge is Power’”的案例,從皮革的質感、燙金的光澤,到復古字體的設計,細節處處彰顯著模型的“匠心”。
這還沒完,它的“高級圖像理解”能力同樣強悍。你扔給它一張復雜的圖片,它不僅能告訴你圖片里有什么,還能像一個藝術評論家一樣,分析圖片的構圖、光影、氛圍,甚至推斷圖片背后的故事。

“橙汁濺出形成‘Smile’字樣”的圖片,不僅考驗了模型對液體物理動態的理解,還考驗了它對文字形態和藝術創意的把握。
第三大創新,是“更高的采樣效率”。前面我們提到,Lumina-DiMOO的架構本身就帶來了速度優勢。但它的研發團隊顯然是群“卷王”,他們覺得還不夠快。于是,他們專門設計了一種叫做“基于最大Logit的緩存方法”(Max Logit-based Cache)的黑科技。
這個技術聽起來復雜,但原理可以這么理解:在模型生成圖像的每一步(去噪過程),都需要做出成千上萬個小決策。這個緩存方法就像一個“超級備忘錄”,能夠智能地記下那些最有可能被用到的“高分決策”,在下一步需要時直接調用,省去了大量的重復計算。就這么一個看似微小卻極其精妙的改進,直接將采樣速度又提升了整整2倍。
在實際應用中,Lumina-DiMOO在生成圖像時,通常只需要64步采樣就能得到高質量結果,而在進行圖像理解這類更復雜的任務時,也能通過靈活調整塊長度和采樣步數,在性能和效率之間找到完美的平衡點。
最后,是它“卓越的性能表現”。Lumina-DiMOO在多個業界公認的權威基準測試中,交出了一份近乎滿分的答卷。它的8B(80億)參數規模的模型,在GenEval、DPG、OneIG-EN、TIIF等多個榜單上,直接屠榜,超越了所有已知的開源統一多模態模型。特別是在一些被認為是多模態模型“試金石”的細分能力上,比如多物體生成(能否準確生成圖片中包含的多個物體)、顏色控制(能否精準控制物體的顏色)、位置精度(能否把物體放在指定的位置)等方面,Lumina-DiMOO的領先優勢尤為明顯。

不服?看看數據多離譜
在GenEval這個綜合性生成能力基準測試上,Lumina-DiMOO與一眾頂級模型的正面硬剛。這里面既有“專用生成模型”,也有像GPT-4o、Janus-Pro這樣的“統一多模態模型”,個個都是名聲在外的狠角色。

參數規模,Lumina-DiMOO是8B,在性能上,Lumina-DiMOO卻展現出了跨級別的統治力。
在“單物體”生成上,它拿到了滿分1.0,這意味著對于簡單的指令,它幾乎能百分之百完美復現。在更考驗構圖能力的“雙物體”生成上,它拿到了0.94分,與業界頂尖的SD3-Medium和BAGAL持平,甚至超過了GPT-4o(0.92)。這說明它對物體之間關系的理解非常到位。
Lumina-DiMOO在“計數”、“顏色”、“位置”、“屬性”這幾項上,都是遙遙領先。這幾個指標恰恰是過去多模態模型最容易翻車的地方。比如你讓它畫“3只貓”,它可能畫出2只或者4只;你讓它畫“一個紅色的球在一個藍色的盒子左邊”,它很可能把顏色搞混,或者把位置放錯。而Lumina-DiMOO在這些“細活兒”上表現出的領先水平,證明了其架構在精準理解和執行復雜指令方面的巨大優勢。特別是“位置”和“屬性”這兩項,是衡量模型是否真正理解了空間關系和語義概念的關鍵。Janus-Pro在“位置”上拿到0.79的高分已經很驚人了,而Lumina-DiMOO的表現相當“恐怖”了。
看看Lumina-DiMOO在各種任務上的實際表現:
- 編輯:

- 風格轉換:

- 主題驅動:

- 控制:

- 重繪:

- 擴展:

- 理解:

根據圖片中顯示的問題,請先進行推理,然后從選項中選擇正確的答案。問題:根據圖像,如果角度y與32度的角度形成一條直線,那么它的值是多少度? A. 148 B. 152 C. 180 D. 32
它能準確推理出正確答案 A。
Lumina-DiMOO的問世,意味著,全球的開發者和研究者都可以站在這個巨人的肩膀上,去探索更多可能,去創造更多價值。
從醫療影像的智能分析,到自動駕駛的精準感知,再到虛擬現實的沉浸式內容構建,Lumina-DiMOO所代表的技術突破,將滲透到未來社會的方方面面。




































