長達790年視頻鏡頭,打造原生多模態世界模型!北京智源研究院用Emu3.5統一“世界”
北京智源研究院發布并開源了基于原生多模態訓練的世界學習者(World Learners)。

Emu3.5的核心突破,在于它用同一種方式預測下一個詞和下一幀圖像。
人工智能的發展正從單一感官的專才,走向多重感官融合的通才。
語言模型在文本世界里所向披靡,但文字終究只是對現實世界的有限描述。
視覺,作為人類感知環境最主要的信息渠道,與語言的深度結合,才能真正開始捕捉這個世界的無窮復雜性。
由北京智源人工智能研究院團隊開發的Emu3.5,正是一個大規模多模態世界模型,代表著這一領域的重要進展。
核心思想即原生多模態。

它不再將視覺和語言視為需要分別處理然后拼接的兩種信息,而是將它們視為同一種數據流。
通過端到端的預訓練,Emu3.5在超過13萬億token的視覺語言交錯數據上學習,目標只有一個:預測下一個token。這個token可能是一個單詞,也可能是一塊圖像的視覺編碼。
這些訓練數據主要來自互聯網視頻的連續幀和對應的轉錄本,這讓Emu3.5天生就能理解并生成圖文交錯的長序列內容。
它不再局限于處理短片段,而是解決了如何在大規模數據上處理長視野多模態信息的關鍵問題,為 AI 模擬和理解真實世界打開了一扇新的大門。
一個統一的靈魂,看懂世界
Emu3.5與Qwen3這類頂尖語言模型一脈相承,但為適應多模態的特性進行了多項關鍵改造。
整個模型由64個transformer層堆疊而成。每一層的隱藏維度為5,120,中間層維度則擴展到25,600,提供了強大的表示能力。
注意力機制包含64個頭,其中8個專用于鍵值對,并采用了GQA(分組查詢注意力)技術,在保證效果的同時提升了計算效率。
為了保證訓練過程的穩定,模型使用了帶有預歸一化的RMSNorm。
同時,在查詢和鍵的投影中引入了QK-Norm,進一步增強了注意力計算的穩定性。激活函數選擇了高效的SwiGLU,并通過RoPE(旋轉位置嵌入)來理解序列中不同token的位置關系。
Emu3.5的總參數量達到341億。
其中312億參數分布在transformer層,負責核心的計算和推理;另外29億參數則位于嵌入層,負責將輸入的文本和視覺信息轉換為模型能夠理解的向量。
它的詞匯表規模巨大,總計282,926個token。
這其中,151,854個是文本token,直接復用了QwenTokenizer,確保了強大的多語言文本處理能力。
另外131,072個是視覺token,是從海量多樣化的圖像數據中學習而來,每一個token都代表著一種視覺模式。
模型支持長達32,768個token的上下文窗口,這意味著它可以一次性處理非常長的圖文序列。在訓練中,0.1的丟棄率被用來防止過擬合,增強模型的泛化能力。
Emu3.5最核心的創新,是其統一的架構設計。

在訓練階段,無論是預訓練、監督微調還是強化學習,模型都執行統一的NTP(下一token預測)任務。它就像一個學生,不斷地看圖文材料,然后預測接下來會出現什么內容,無論是文字還是圖像的一部分。
到了推理生成階段,一種名為DiDA(離散擴散適應)的方法被引入,實現了高效的混合生成。文
本內容依然是逐字順序生成,以保證邏輯的連貫性;而視覺內容則可以并行生成,極大地提升了效率。這一改變,讓每張圖像的生成速度提升了近20倍,且幾乎沒有質量損失。
整個訓練流程被精心設計為兩個主要階段。

第一階段,模型在約13萬億token的龐大數據上進行預訓練。這些數據主要來自互聯網視頻的連續幀和轉錄本,讓模型學習世界的基本規律和圖文對齊。
第二階段,模型在約3萬億更高質量的數據上繼續訓練。這個階段的數據在視覺分辨率、數據質量和注釋豐富度上都得到了提升,為模型提供了更精確的多模態監督信號。
這種兩階段設計,使模型能夠在一個統一的框架內,自然地處理圖文交錯的輸入,并生成同樣交錯的輸出。
預訓練之后,Emu3.5通過1,500億樣本進行SFT(監督微調),構建起統一的多模態生成接口,使其能夠理解并執行各種復雜的指令。隨后,大規模強化學習進一步增強了模型的多模態推理和生成能力。
最后,僅用數十億token,通過DiDA方法快速適應,實現了高效推理。
要讓模型理解圖像,首先需要將連續的像素世界離散化,變成一個個模型可以處理的視覺token,這個過程由分詞器完成。
Emu3.5主要采用IBQ框架進行視覺token化,下采樣因子為16,這意味著圖像的每個16x16像素區域會被編碼成一個或多個視覺token。代碼本中的每個離散token維度為256。
為了容納更豐富的視覺信息,團隊將代碼本的大小擴展到了驚人的131,072,并將分詞器模型的參數量增加到4.55億,使其能更好地表示復雜的圖像結構。
受REPA方法的啟發,團隊還在訓練時將SigLIP模型的特征蒸餾集成到分詞器解碼器的中間輸出中。這改善了模型的表示學習能力,讓離散的圖像token攜帶了更豐富的語義信息。
在圖像解碼方面,Emu3.5的基礎分詞器僅用Emu3模型四分之一的token數量,就實現了更優的圖像重建質量。
為了進一步提升視覺生成效果,團隊還引入了一個基于擴散的解碼器作為可選方案。
這個解碼器同樣接收量化token作為輸入,但生成的圖像分辨率是基礎解碼器的兩倍。它在局部細節和精細紋理上表現更佳,尤其是在文字渲染和人臉重建方面。
團隊還采用基于LoRA的蒸餾方法,將解碼速度提升了約10倍,去噪步驟從50步減少到4步,性能卻絲毫不減。
對于視頻生成,Emu3.5通過一個基于擴散的視頻解碼器來擴展能力,該解碼器以生成的關鍵幀token為條件,生成中間的連續視頻幀。
視頻解碼器建立在主流的DiT架構之上,利用VQ量化器的量化嵌入來提供細粒度的視覺細節,同時可選的文本信息則提供高級語義指導。一個額外的4通道掩碼被引入,用來指示哪些幀的token是已知的,這使得模型可以靈活地生成任意數量的中間幀。
萬億數據,喂養一個世界的雛形
一個強大模型的誕生,離不開海量、高質量的數據。
Emu3.5的預訓練數據超過13萬億多模態token,無論在規模、多樣性還是質量上,都遠超前代。

這些數據主要由四個部分構成:交錯視覺語言數據、視覺文本對數據、任意到圖像數據,以及純文本數據。
視頻交錯數據是Emu3.5的基石。傳統方法大多依賴靜態的圖文對,每個樣本都是孤立的。Emu3.5的語料庫則著眼于捕捉長時程、交錯的多模態上下文。
這些數據來源于大規模互聯網視頻的順序幀和時間對齊的音頻轉錄本。

視頻天然地保留了時空的連續性、跨模態的對齊關系以及上下文的連貫性。這種長序列數據提供了比孤立圖文對豐富得多的信息,促進了模型學習長時程生成、推理和世界建模的能力。
數據來源極其廣泛,包括開源數據集、公開的在線視頻以及通過第三方合作獲取的視頻。
整個語料庫包含了約6,300萬個視頻,平均時長6.5分鐘,總計長達約790年的連續鏡頭。
內容涵蓋教育、科技、生活技巧、娛樂、體育、游戲、旅行和動畫等多個領域,力求捕捉真實世界與想象世界的全面光譜。
原始視頻數據包含視覺幀和音軌,需要精細的預處理。
團隊使用PySceneDetect將每個視頻分割成連貫的場景。
對于每個場景,如果時長較短,就選取中間一幀;如果較長,則每隔一段時間采樣一幀。
實踐證明,這種策略比均勻采樣更能保留視頻的核心視覺內容,同時有效去除冗余。
對于音軌,采用Whisper-large-v2模型進行ASR(自動語音識別),并用Faster-Whisper加速。
生成的字幕和時間戳再通過spaCy進行后處理,以產生語法連貫且時間對齊的文本。
為了保證數據質量,一個兩階段的過濾管道被設計出來。
基礎過濾負責粗粒度的數據清理和平衡,包括過濾時長和分辨率不合規的視頻、過濾掉過多的說話人頭部特寫鏡頭、以及平衡不同語言和靜音片段的比例。
高級過濾則通過多模態質量評估和去重來優化數據集,包括評估幀圖像的質量、去除冗余內容以及評估文本質量。
注釋過程也分為兩個階段。
在第一階段預訓練中,只使用自動提取的關鍵幀和ASR轉錄本。
在第二階段,則整合了一系列信息更豐富的注釋,以提高收斂效率和下游任務的適應性,包括語義分割與摘要、詳細的視覺描述以及多模態摘要。
視覺文本對數據子集包含了約5億圖文對和3,000萬視頻文本對。圖像數據主要來自Emu3的訓練庫,但文本注釋已經使用更強大的Qwen2.5-VL-7B模型重新生成和豐富,顯著提升了注釋的質量、描述的豐富度和圖文對齊的準確性。
團隊還利用最先進的開源T2I(文本到圖像)模型生成的合成圖文對來增強圖像生成能力,并結合了如InfinityMM和LLaVA-OV等最新的開源視覺語言數據集,這些數據集提供了高質量的、帶有視覺指代和多樣化問答格式的注釋,強化了模型進行結構化推理和上下文理解的能力。
對于視頻文本對,團隊通過基于運動分數的過濾來確保動態視覺內容的多樣性,并通過增加采樣間隔來平衡時間覆蓋和計算成本。
當多個片段來自同一視頻時,它們會按時間順序打包成自然的交錯序列進行訓練,這讓模型能更好地捕捉長期的時間依賴性。
任意到圖像(X2I)數據集包含了約2,735萬個樣本,匯集了廣泛的開源數據集,并補充了內部構建的私有數據。
開源數據雖然豐富,但常存在多樣性不足、質量不佳等問題。
為了解決這些限制,團隊從海量的視頻和圖像中策劃了額外的大規模X2I數據,顯著增強了訓練數據的多樣性、質量和規模。
純文本數據是模型語言能力的基石。
團隊整合了約3萬億token的大規模純文本語料庫。
在Emu3的基礎上,結合了精心過濾的高質量開源語料庫,確保了語言和領域的均衡覆蓋。

這為模型的多模態學習提供了堅實的語言基礎,使其能夠在圖文交錯的上下文中,生成語義連貫、邏輯一致的內容。
在訓練目標上,Emu3.5采用與Emu3相同的策略,將視覺和文本token整合到統一的序列中。
由于所有視覺信號都被完全token化,模型可以使用標準的交叉熵損失進行下一token預測。
為了平衡兩種模態的優化,對應于視覺token的損失項被賦予了0.5的權重。
訓練分為兩個階段。
第一階段,模型在10萬億token上進行訓練,序列長度最長為32,768。此階段專注于學習基礎的多模態對齊和預測能力。所有圖像都被限制在最多1,024個視覺token,對應最大512×512的分辨率。
第二階段,模型在約3萬億更高質量的token上繼續訓練。此階段通過增加圖像分辨率、改善數據質量、平衡數據分布并整合更多注釋,來進一步增強模型的多模態生成能力。視覺token的數量動態變化,從1,024到4,096不等,對應的圖像分辨率最高可達1024×1024。
整個訓練和推理基礎設施構建于FlagScale框架之上,支持各種并行策略和跨硬件部署。訓練全程使用AdamW優化器。

訓練過程的動態監測顯示,訓練損失和在9個不同驗證集上的驗證損失都平穩下降,這表明模型在大規模多模態優化下收斂穩定,并具備強大的泛化能力。
這些驗證集覆蓋了文本到圖像、圖像到文本、視頻交錯數據等多種類型,以及視覺敘事、視覺指導等下游任務,證實了大規模交錯訓練范式帶來了魯棒的優化動態和跨領域的泛化能力。
從理解到創造,后訓練激發無限潛能
預訓練賦予了Emu3.5強大的基礎能力,而后訓練則將其雕琢成能夠完成特定任務的多面手。
SFT(監督微調)階段,Emu3.5自然地支持了廣泛的多模態任務,包括文本到圖像生成、純語言理解與生成,以及視覺語言問答。
X2I(任意到圖像)生成是其核心能力之一,這里的X代表任意的、圖文交錯的輸入指令。
無論是根據文本生成圖像、對圖像進行局部編輯、根據主題生成一系列圖像,還是在給定的上下文中進行圖像編輯和生成,都屬于X2I的范疇。
這項任務對模型的多模態指令跟隨能力、主題與背景的一致性、生成質量、世界知識乃至物理規律的理解都提出了極高的要求。掌握X2I是通向更通用的X2X(任意到任意)生成范式的第一步。
視覺敘事(Visual Narrative)是另一項關鍵的多模態任務。
它要求模型以圖文交錯的方式,生成具有連續故事情節的內容。這不僅需要模型能寫出結構完整的故事腳本,還要生成在角色和風格上保持時間一致的、引人入勝的圖像。
與以往的方法不同,Emu3.5的視覺敘事能力覆蓋范圍極廣,從虛擬到現實(動漫、日常生活),從古代到當代(歷史事件、電影),從敘事表達到想象創造(科學概念、童話),都游刃有余。
其生成的內容展現了豐富的通用知識和教育意圖,是多模態學習向世界級理解邁進的橋梁。
視覺指導(Visual Guidance)則讓模型能夠理解并生成程序性的動作。
它要求模型在多步指令中將視覺線索與語言表達對齊,例如根據菜譜圖片和文字,生成一步步的烹飪指導。
在這類任務中,視覺信號不再僅僅是輔助信息,而是動態的指引,約束著語言推理。
通過聯合理解文本和視覺條件來執行多步指令,視覺指導將多模態學習從共現級的理解推向了動作級的理解和因果、過程導向的推理,為具身智能和世界建模奠定了基礎。
世界探索(World Exploration)和具身操作(Embodied Manipulation)代表了Emu3.5作為世界模型的核心潛力。
世界探索使其能夠在開放環境中自由導航和理解場景,而具身操作則使其能夠與物理世界進行交互和操作。
這兩項能力都要求模型對世界有深刻的理解,包括空間關系、物理規律和因果推理。
SFT階段使用了約1,500億樣本,覆蓋上述各種任務。
訓練超參數經過精心調整,例如學習率設置為1×10^-5,采用余弦調度器,序列長度保持在32,768,并支持更高分辨率的生成。
在SFT之后,Emu3.5接受了大規模RL(強化學習)的洗禮,以進一步打磨其多模態推理和生成能力。

團隊設計了一個多模態獎勵系統,結合了多個獎勵模型來評估生成內容的質量。
這些獎勵模型分別評估圖像的美學和技術質量、文本的流暢性和相關性、圖文之間的一致性,以及在特定任務上的表現。
RL階段使用了約10萬個精心設計的提示,覆蓋各種任務和場景。
團隊采用了GRPO(分組相對策略優化)算法,這是一種通過相對比較而非絕對評分來優化策略的強化學習算法,提升了訓練的穩定性和效率。
訓練持續了約10萬步,確保了充分收斂。
觀察發現,隨著訓練計算量的增加,模型在復雜多模態任務上的性能持續提升,尤其是在視覺敘事和視覺指導上,證明了強化學習對于增強模型高級能力的有效性。
為了解決自回歸模型生成圖像速度慢的問題,團隊提出了DiDA(離散擴散適應)方法。

它巧妙地將傳統的逐token自回歸生成過程與擴散模型相結合,實現了視覺token的并行生成,同時保持文本token的順序生成。
DiDA的訓練分為兩步。
首先,使用SFT數據和自蒸餾數據訓練一個擴散頭,使其能夠根據上下文一次性預測出所有的視覺token。
其次,通過最小化擴散預測和原始自回歸預測之間的差異,來對齊擴散頭和原始模型。這種對齊確保了DiDA在實現顯著加速的同時,生成的結果與原始模型保持高度一致。
Emu3.5采用了基于有限狀態機(FSM)調度的混合推理框架。

有限狀態機(FSM)的調度器,在預分配資源的同時自適應地管理文本和圖像階段之間的轉換,從而實現高效的并發處理。
結合異步請求處理、運行時狀態重用和FP8量化,該框架大大降低了內核開銷并提高了吞吐量,在4設備設置上實現了至少50%的加速。
實力展示,與世界頂尖模型同臺競技
Emu3.5在多項基準測試和實際應用中展示了其強大的能力

在圖像生成和編輯任務的多個測試集上,Emu3.5全面超越開源、閉源SOTA模型。
TIIF Bench testmini測試集的定量評估結果:

OneIG中英文數據集的定量評估結果:

SOTA T2I模型LeX Bench、LongText Bench和CVTG-2K數據集上的比較:


圖像編輯任務上的定量比較結果:

定性分析結果:



Emu3.5在文本渲染方面表現極為出色,能夠準確地生成包含復雜文字的圖像,這對于廣告設計、信息圖表等應用至關重要。
視覺敘事是Emu3.5的拿手好戲。
它能生成連貫故事,不僅視覺上前后一致,敘事也富有邏輯和吸引力。在自動化的偏好評估中,Emu3.5生成的視覺敘事顯著領先于對手。


在視覺指導任務中,Emu3.5同樣表現出色。
無論是演示如何從書中取出手機,還是如何根據草圖完成一幅畫,它生成的指導都清晰、連貫且具有可執行性。在這項任務的偏好評估中,Emu3.5仍然領先。


作為世界模型的雛形,Emu3.5也展示了其在世界探索和具身操作方面的潛力。
它能生成第一人稱視角的探索場景,或是駕駛視角,視覺連貫,空間感真實。


它還能將一個機器人手臂折疊衣服的復雜任務,分解為7個詳細的步驟,每個步驟都清晰描述了左右手的動作,展現了其對物理世界交互的理解能力。


這些能力的背后,是其高效的分詞器和創新的推理加速技術。
實驗表明,Emu3.5的分詞器僅用四分之一的token數就實現了比前代方法更好的圖像重建質量。
而DiDA技術,在不犧牲性能的前提下,將每張圖像的推理速度提升了約20倍。
Emu3.5代表了大規模原生視覺語言生成模型的重要一步。
它展示了長視野多模態生成與推理的能力,能夠產生時序一致、語義連貫的圖文交錯序列。
這些能力催生了視覺敘事、視覺指導等多樣化的應用,并展現了可泛化的世界建模潛力,為可控交互、自由導航和動態場景模擬提供了可能。
同時,它也是一個頂尖的任意到圖像(X2I)和文本到圖像(T2I)生成模型,其強大的原生多模態能力使其在精確控制和自由時空操作方面表現優異,并在文本渲染方面超越了同類頂尖模型。
隨著預訓練規模的擴大,模型在未見過的多模態任務上的泛化能力持續增強。
統一的后訓練過程,如強化學習,構建了一個共享的多模態接口,讓不同任務的能力可以相互遷移和促進。
下一token預測模型可以被有效地轉換為雙向并行預測器,實現顯著的加速而性能不減。
這些觀察共同凸顯了原生多模態范式的可擴展性、多功能性和靈活性。
團隊已經開源了Emu3.5,它或許將為推進世界模型、提升多模態智能鋪平道路。




























