ICML 2025 | 快手&上交提出統一多模態生成理解模型Orthus:多模態理解/圖像編輯/圖文交織生成一鍵搞定
在ICML25上,快手、上交聯合提出統一多模態生成理解模型Orthus——基于自回歸Transformer的無損圖文交錯生成新范式。Orthus 不僅在多個視覺理解指標上超越了Chameleon和Show-o等競爭模型,還在圖像編輯、圖文交錯生成等任務上展現了強大的能力。目前代碼已開源。

Orthus是一個統一的多模態模型,在AR建模原則下處理離散文本標記和無損連續圖像特征。與現有技術不同,Orthus首次同時享有以下三大優勢:
- 單個變壓器內 AR 和擴散的統一建模
- 用于理解和生成的無損視覺信號
- 無縫跨模態學習和混合模態生成
Orthus 擅長根據文本提示生成圖像,根據視覺輸入回答問題,甚至能夠創作長篇圖文交織的內容。以下是 Orthus 生成的一些示例。

相關鏈接
- 論文:https://arxiv.org/pdf/2412.00127
- 代碼:https://github.com/zhijie-group/Orthus
- 模型:https://huggingface.co/SJTU-Deng-Lab/Orthus-7B-instruct
Orthus 如何工作?
給定圖像和文本,Orthus 將離散文本標記(來自標記器)和連續的逐塊圖像特征(來自視覺編碼器)嵌入到同一表示空間中,然后調用 AR Transformer 主干網絡對模態間和模態內特征進行建模,并生成一系列輸出向量。這些向量被路由到特定模態的頭部,其中語言建模頭部以分類方式預測下一個文本標記,而擴散頭部通過條件擴散建模預測下一個圖像塊特征。在推理過程中,Orthus 根據特殊過渡標記的指示,自回歸地預測下一個文本標記或圖像塊。

Orthus 與現有的統一多模式模型有何不同?
與完全 AR 模型(左)相比,Orthus(右)采用連續圖像特征,消除了 VQ 造成的信息丟失。 與 AR-擴散混合模型(中)相比,Orthus(右)將擴散從 Transformer 主干中分離出來,避免了視覺理解的噪聲干擾,并通過直接的 AR 來表征模態之間的相關性。

實驗結果

Orthus 混合圖文理解與生成的定性結果。左圖:在 Instruct-Pix2Pix (Brooks et al., 2023) 上微調后的圖像編輯結果。值得注意的是,Orthus 展現了情境學習能力,當提供示例而非明確的指令時,Orthus 能夠成功執行圖像編輯,而這些指令并未包含在訓練數據集中。右圖:在 StoryStream 數據集上微調后的交錯故事書創作結果。結果表明,Orthus 在生成邏輯連貫、相關性高的交錯圖文方面表現出色。



在視覺理解基準上進行評估。Und. 和 Gen. 分別表示“理解”和“生成”。使用外部預訓練擴散模型的模型標有 *,Chameleon? 使用與 Orthus 相同的數據集進行后訓練。粗體和下劃線的結果分別表示最佳結果和次佳結果。這些結果對應于精確匹配準確率。

左圖:Show-o、Chameleon 和 Orthus 基于相同提示生成的圖像對比。Orthus 生成的樣本包含更多細節。右圖:Orthus 的文本轉圖像圖庫。

結論
Orthus是一個用于交錯圖像文本理解和生成的統一多模態模型。Orthus 通過將共享 Transformer 主干網絡的輸出路由到特定模態的 Head,跨模態生成內容。它對視覺信號的連續處理能夠保持輸入的完整性,其針對離散文本標記和連續圖像特征的統一 AR 建模方法使其在各種多模態理解和生成基準測試中表現出色。 在未來的工作中,我們計劃通過擴展 Orthus 的參數大小并利用更大的交錯數據集來擴展其性能,從而最大限度地發揮其潛力。此外,我們還旨在通過整合其他模態(包括視頻和音頻)來擴展其多模態能力。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















