自回歸新王登基!NextStep-1強勢登場,圖像生成SOTA達成!高保真+強編輯,太能打了! 精華

文章鏈接:https://arxiv.org/pdf/2508.10711 項目鏈接:https://stepfun.ai/research/en/nextstep1 Git鏈接: https://github.com/stepfun-ai/NextStep-1

亮點直擊
- 首創(chuàng)連續(xù)圖像流匹配自回歸架構:用輕量級流匹配頭(157M)實現(xiàn)patch-by-patch生成;擺脫傳統(tǒng)擴散模型依賴,保持SOTA生成質量
- 突破性高維隱空間穩(wěn)定技術: 創(chuàng)新通道歸一化+隨機擾動tokenizer設計;支持16通道高維空間穩(wěn)定訓練,無偽影生成
- 統(tǒng)一的多模態(tài)生成-編輯框架: 單序列處理離散文本和連續(xù)圖像token;衍生編輯模型在主流benchmark媲美擴散模型
總結速覽
解決的問題
- 現(xiàn)有自回歸模型的局限性:當前文本到圖像生成的自回歸模型要么依賴計算密集型擴散模型處理連續(xù)圖像token,要么采用向量量化(VQ)獲取離散token但引入量化損失,導致性能受限。
- 性能差距:自回歸模型在圖像質量和一致性方面仍落后于最先進的擴散模型(如Diffusion-based方法)。
- 訓練穩(wěn)定性問題:高維隱空間易導致訓練不穩(wěn)定或發(fā)散,影響模型效果。
提出的方案
- NextStep-1模型:
- 基于“Next token預測”范式,結合14B參數(shù)的自回歸主干和157M參數(shù)的輕量級流匹配頭(flow matching head)。
- 同時處理離散文本token和連續(xù)圖像token,避免量化損失。
- 引入改進的圖像tokenizer,增強連續(xù)token的魯棒性并穩(wěn)定高維隱空間(如16通道)的訓練。
應用的技術
- 混合token處理:
- 對文本使用離散token和標準語言建模頭,對圖像使用連續(xù)token和流匹配頭(MLP結構)。
- 流匹配目標(Flow Matching):
- 通過流匹配目標優(yōu)化連續(xù)圖像token的生成。
- 穩(wěn)定訓練技術:
- 圖像tokenizer設計確保隱空間分布均勻且歸一化,支持高維(16通道) latent空間的穩(wěn)定訓練。
達到的效果
- 生成性能:
- 在文本到圖像任務中達到SOTA,指標顯著領先(如WISE 0.54、GenAI-Bench 0.67、DPG-Bench 85.28)。
- 支持復雜場景(長/短文本、世界知識需求)。
- 圖像編輯能力:
- NextStep-1-Edit在指令編輯任務中表現(xiàn)優(yōu)異(GEdit-Bench 6.58,ImgEdit-Bench 3.71)。
- 訓練穩(wěn)定性:
- 高維隱空間(16通道)下穩(wěn)定收斂,生成高保真圖像。
框架
基于連續(xù)視覺token的統(tǒng)一多模態(tài)生成

模型架構

圖像tokenizer 輸出的潛在表示通過像素重組(pixel-shuffle)轉換為更緊湊的序列。這是通過應用2×2核的空間到深度變換實現(xiàn)的,該變換將2×2空間潛在表示展平到通道維度。例如,這將256×256圖像的潛在表示轉換為16×16網(wǎng)格的64通道token。該網(wǎng)格隨后被展平為256個token的一維序列,作為后續(xù)因果Transformer的輸入。
因果Transformer:從僅解碼器的Qwen2.5-14B初始化模型,利用其強大的語言理解和推理能力進行文本到圖像生成。我們按照以下格式組織多模態(tài)輸入序列:
??{text} <image_area>h*w <boi> {image} <eoi>... ??
其中??{text}???表示離散文本token,??{image}???表示連續(xù)圖像token。??<boi>???和??<eoi>???是特殊token,分別標記圖像的開始和結束。??<image_area>h*w??表示關于2D圖像token空間維度的元數(shù)據(jù)。
然后,來自LLM的輸出隱藏狀態(tài)被傳遞到兩個輕量級頭部以計算模態(tài)特定的損失:
- 語言建模頭:為文本的隱藏狀態(tài)計算交叉熵損失。
- 分塊流匹配頭:使用每個分塊的圖像隱藏狀態(tài)作為條件,在時間步對目標分塊進行去噪,并使用一個157M參數(shù)、12層、1536隱藏維度的MLP計算分塊流匹配損失。
對于位置信息,使用標準的1D RoPE。盡管存在更復雜的2D或多模態(tài)RoPE替代方案,我們發(fā)現(xiàn)簡單的1D公式對于混合文本-圖像序列仍然非常有效,因此為了簡單和效率而保留它。
數(shù)據(jù)
為了全面賦予模型廣泛且多功能的生成能力,構建了一個由四大類數(shù)據(jù)組成的多樣化訓練語料庫:純文本語料、圖文對數(shù)據(jù)、圖像到圖像數(shù)據(jù)以及交錯數(shù)據(jù)。每類數(shù)據(jù)都經過精心設計,用于培養(yǎng)模型不同方面的生成能力。
純文本語料
為了保留大語言模型(LLM)固有的廣泛語言能力,在訓練中加入了從Step-3采樣的4000億純文本token。
圖文對數(shù)據(jù)
由圖文對組成的數(shù)據(jù)構成了模型文本到圖像生成能力的基礎。我們開發(fā)了一個全面的數(shù)據(jù)處理流程,從多樣化的初始來源中篩選出高質量、大規(guī)模的數(shù)據(jù)集:
- 數(shù)據(jù)收集:從網(wǎng)絡數(shù)據(jù)、多任務VQA數(shù)據(jù)和富含文本的文檔等多種來源收集了大規(guī)模數(shù)據(jù)集。
- 基于質量的篩選:隨后我們應用嚴格的篩選流程,評估每張圖像的美學質量、水印存在情況、清晰度、OCR檢測以及圖文語義對齊程度。
- 重新標注:對篩選后的圖像去重后,我們使用Step-1o-turbo為每張圖像生成中英文的豐富詳細描述。
這個多階段流程最終產生了5.5億個高質量的圖文對數(shù)據(jù)集,為訓練兼具審美感知和廣泛世界知識的模型奠定了基礎。
指令引導的圖像到圖像數(shù)據(jù)
為了實現(xiàn)廣泛的實際應用為指令引導的圖像到圖像任務(如視覺感知、可控圖像生成、圖像恢復、通用圖像編輯等)篩選了高質量數(shù)據(jù)集。
對于視覺感知和可控圖像生成任務,通過對部分高質量圖文對數(shù)據(jù)應用ControlNet的標注工具合成了100萬個樣本。對于圖像恢復和通用圖像編輯,我們收集了350萬個樣本,包括來自GPT-Image-Edit、Step1X-Edit和專有內部數(shù)據(jù)集的數(shù)據(jù)。按照Step1X-Edit的方法,所有編輯數(shù)據(jù)都經過基于VLM的嚴格篩選流程,評估圖像對質量、合理性、一致性和指令對齊程度,最終得到約100萬條高質量的指令引導圖像到圖像訓練數(shù)據(jù)。
交錯數(shù)據(jù)
交錯數(shù)據(jù)無縫整合了文本和圖像,提供了模態(tài)間豐富而細致的序列關聯(lián)。具體而言,我們知識豐富的交錯數(shù)據(jù)集主要由四類組成:通用視頻交錯數(shù)據(jù)、教程、以角色為中心的場景和多視角數(shù)據(jù)。
為了賦予模型廣泛的世界知識,首先構建了包含8000萬樣本的大規(guī)模視頻交錯數(shù)據(jù)集。這一成果通過借鑒Step-Video的精心設計流程實現(xiàn),包括幀提取、去重和標注。此外,遵循mmtextbook的方法論,利用ASR和OCR工具收集并處理教程視頻,這部分特別針對富含文本的真實場景,增強了模型在上下文中的文本理解和生成能力。
如下圖3所示,以角色為中心的數(shù)據(jù)集NextStep-Video-Interleave-5M。對于該數(shù)據(jù)集,提取了以特定角色為中心的視頻幀,并生成類似(Oliveira and de Matos, 2025)的富有故事性的描述,從而顯著提升了模型的多輪交互能力。最后,為了加強幾何推理能力,從兩個開源數(shù)據(jù)集MV-ImageNet-v2和Objaverse-XL中篩選了多視角數(shù)據(jù),增強了模型保持多視角一致性的能力。

訓練方案
訓練圖像Token化器

預訓練
預訓練的具體超參數(shù)和數(shù)據(jù)比例如下表1所示。預訓練采用三階段課程學習,逐步提升模型能力。除預訓練的圖像tokenizer 外,所有模型參數(shù)均端到端訓練。

階段1:在此初始階段,模型學習圖像結構和構圖的基礎理解。為計算效率,所有圖像調整為256×256分辨率并隨機裁剪。訓練數(shù)據(jù)混合比例為:20%純文本語料、60%圖文對和20%交錯數(shù)據(jù)。本階段消耗約1.23T token。
階段2:采用動態(tài)分辨率策略,訓練模型處理256×256和512×512基礎區(qū)域的高分辨率圖像,使用不同寬高比分桶提升計算效率。本階段增加富含文本的視頻交錯數(shù)據(jù),利用模型增強的細節(jié)處理能力。
退火階段:在預訓練最后階段,對精選的2000萬樣本(通過更嚴格的美學評分、圖像清晰度、語義相似度等標準篩選)進行一輪退火訓練,顯著提升模型輸出的圖像結構、構圖、紋理和美學吸引力。
后訓練
預訓練建立通用基礎模型后,后訓練通過兩階段過程使模型輸出與人類偏好和下游任務對齊:監(jiān)督微調(SFT)和直接偏好優(yōu)化(DPO)。各階段超參數(shù)見表1。
監(jiān)督微調(SFT) :SFT階段增強模型指令跟隨能力并使其輸出符合人類偏好。500萬樣本的SFT數(shù)據(jù)集包含三部分:
- 人工精選的高語義一致性和視覺吸引力圖文對,輔以其他生成模型的圖像,通過蒸餾提升復雜想象提示的處理能力;
- 思維鏈(CoT)數(shù)據(jù),在生成最終圖像前加入基于語言的推理步驟;
- 3.3節(jié)高質量的指令引導圖像到圖像數(shù)據(jù),強化模型編輯能力。
直接偏好優(yōu)化(DPO) :采用受Diffusion-DPO啟發(fā)的DPO方法,基于約2萬條精選提示構建兩類偏好數(shù)據(jù)集:

模型性能
文本到圖像生成性能
我們在多個代表性基準上全面評估NextStep-1的文本到圖像(T2I)生成性能,每個基準針對圖像生成的不同方面,包括視覺-文本對齊和世界知識。
圖像-文本對齊:如下表2所示,在三個關鍵基準上評估NextStep-1的提示跟隨能力。在GenEval上,NextStep-1得分為0.63(使用Self-CoT時為0.73),展示了強大的計數(shù)、定位和空間對齊能力。其出色的組合能力在GenAI-Bench上進一步驗證,基礎提示得分為0.88,高級提示得分為0.67(使用Self-CoT時為0.9和0.74)。這些結果表明NextStep-1作為自回歸圖像生成模型的卓越性能,與Stable Diffusion 3.5 Large和BAGEL等擴散模型競爭。最后,在針對長上下文、多對象場景的DPG-Bench上,NextStep-1得分為85.28,確認了其在復雜提示下可靠的組合保真度。

為進行細粒度分析,在OneIG-Bench上使用英文提示評估模型。該基準評估對齊、文本渲染、推理和風格控制等領域的性能。如下表3所示,NextStep-1總體得分為0.417,顯著優(yōu)于其他自回歸模型,如Emu3(0.311)和Janus-Pro(0.267)。

世界知識:為評估NextStep-1將世界知識融入圖像生成的能力,我們使用WISE基準,其強調事實基礎和語義理解。如下表4所示,NextStep-1以總體得分0.54(使用Self-CoT時為0.67)在自回歸模型中表現(xiàn)最佳,并超過大多數(shù)擴散模型。值得注意的是,在提示重寫協(xié)議下,其得分提升至0.79(使用Self-CoT時為0.83)。這些結果共同證明了NextStep-1強大的知識感知語義對齊和跨領域推理能力。

圖像編輯性能
編輯基準定量結果:通過前面100萬高質量編輯數(shù)據(jù)上微調NextStep-1開發(fā)了NextStep-1-Edit,其性能與先進的基于擴散的模型競爭。如下表5所示,NextStep-1-Edit在GEdit-Bench-EN上得分為6.58,在ImgEdit-Bench上得分為3.71,表明其強大的實際編輯能力。


討論
圖像生成的核心:AR Transformer還是FM Head?
本框架的關鍵架構特點在于使用流匹配(flow matching)目標直接對連續(xù)圖像token進行自回歸建模。當前主流的圖像生成自回歸模型通常依賴重型擴散模型處理完整圖像:自回歸模型首先生成語義嵌入,再通過單次去噪過程的擴散模型生成完整圖像。相比之下,模型以分塊(patch-by-patch)方式自回歸生成圖像,用輕量級流匹配模型建模每個圖像塊的分布。這確立了我們在純自回歸范式下的框架,而非由Transformer編排的擴散模型。




Tokenizer是圖像生成的關鍵


隱空間維度的權衡:更高維隱空間能提升重建質量但增加訓練難度。我們比較了4/8/16通道的tokenizer變體,發(fā)現(xiàn)16通道版本在保持訓練穩(wěn)定性的同時達到最佳FID分數(shù)(表8)。這歸功于我們的空間到深度變換和通道歸一化設計,使高維隱空間保持穩(wěn)定訓練動態(tài)。

通過上面圖5實證展示了這一現(xiàn)象。在中等引導尺度1.5下,每個token的均值和方差在整個生成過程中保持穩(wěn)定;而在高引導尺度3.0下,后續(xù)token的統(tǒng)計量顯著發(fā)散,這種分布偏移直接對應視覺偽影的出現(xiàn)。我們的tokenizer設計通過通道歸一化(見公式(3))強制實現(xiàn)每個token的統(tǒng)計穩(wěn)定性,從根本上解決了這一問題。這一簡單但關鍵的設計選擇緩解了不穩(wěn)定性,使得在保持圖像質量的前提下可以使用強引導。

此現(xiàn)象歸因于噪聲正則化培育了良好條件的隱空間,增強了兩個關鍵特性:tokenizer解碼器對潛在擾動的魯棒性(下圖6)以及更分散的潛在分布(下圖7)——這一特性也被先前研究證明有益于生成。雖然尚不清楚魯棒性或分散性哪個起主導作用,但這些結果明確了基于噪聲的正則化的實用價值。


重建質量決定生成質量上限:圖像tokenizer的重建保真度從根本上決定了最終生成圖像的質量上限,特別是對細節(jié)和紋理的還原。這一原則已被近期多項研究驗證,促使擴散模型范式轉向采用重建性能優(yōu)異的VAE(如PSNR>30)。相比之下,如下表8所示,基于VQ的自回歸模型長期難以突破這一閾值。盡管重建質量與生成質量的權衡常被討論,本文的工作成功將自回歸模型應用于高保真連續(xù)VAE,彌合了這一差距。

局限性與挑戰(zhàn)
生成偽影:雖然NextStep-1證明自回歸模型可在高維連續(xù)隱空間中實現(xiàn)媲美擴散模型的生成質量,但該方法也帶來獨特的穩(wěn)定性挑戰(zhàn)。當從低維隱空間VAE(如下采樣因子8、4通道)轉向高維配置(如下采樣因子8、16通道)時,我們觀察到幾種獨特的生成偽影。前者輸出穩(wěn)定,后者偶爾會出現(xiàn)如下圖8所示的失效模式。

潛在原因包括:
- 生成后期出現(xiàn)的局部噪聲或塊狀偽影可能源于數(shù)值不穩(wěn)定性;
- 圖像全局噪聲可能反映訓練欠收斂,暗示增加訓練可緩解該問題;
- 細微網(wǎng)格狀偽影可能揭示1D位置編碼在捕捉2D空間關系時的局限性。
序列解碼的推理延遲:在H100 GPU(983 TFLOPS,3.36 TB/s帶寬)上對單批次推理的逐token延遲分析(下表9)顯示,主要瓶頸來自LLM的串行解碼,而流匹配頭的多步采樣也占顯著成本。這提示兩個優(yōu)化方向:
- 通過減少流匹配頭參數(shù)量、應用蒸餾實現(xiàn)少步生成或采用更先進的少步采樣器提升效率;
- 將LLM領域的推測解碼或多token預測技術遷移至圖像token生成。

高分辨率訓練挑戰(zhàn):相比已建立成熟技術的擴散模型,本框架面臨兩大挑戰(zhàn):
- 自回歸生成的嚴格序列性需要更多訓練步數(shù)實現(xiàn)高分辨率收斂,而擴散模型每次迭代并行優(yōu)化整圖,更直接利用2D空間歸納偏置;
- 時間步偏移等擴散模型的高分辨率技術難以適配本框架,因流匹配頭僅作為輕量采樣器,核心生成由Transformer主干完成,采樣過程修改對輸出影響有限。針對分塊自回歸模型設計專用高分辨率策略是重要研究方向。
監(jiān)督微調(SFT)挑戰(zhàn):相比擴散模型,本自回歸框架SFT表現(xiàn)出獨特的不穩(wěn)定動態(tài):
- 擴散模型通常僅需數(shù)千樣本即可穩(wěn)定適配目標分布;
- 我們的SFT需百萬級樣本才能顯著提升,小規(guī)模數(shù)據(jù)集下模型要么改進微弱,要么突然過擬合目標分布。
因此,在保持通用生成能力的同時實現(xiàn)目標分布對齊的中間檢查點選擇仍是重大挑戰(zhàn)。
本文轉自AI生成未來 ,作者:AI生成未來

















