自回歸圖像生成新突破!140億參數(shù)自回歸模型NextStep-1開源,圖像生成無需擴(kuò)散模型 原創(chuàng)
自回歸圖像生成新突破!140億參數(shù)自回歸模型NextStep-1開源,圖像生成無需擴(kuò)散模型
階躍星辰發(fā)布自回歸圖像模型NextStep-1,突破傳統(tǒng)技術(shù)瓶頸,實(shí)現(xiàn)高保真生成與強(qiáng)編輯能力,達(dá)成SOTA,開啟圖像生成新范式。
?
最近,階躍星辰于正式推出 NextStep-1 自回歸圖像生成模型,該模型在權(quán)威測評中以 87.6% 的真人偏好率刷新行業(yè)紀(jì)錄。相較于當(dāng)前主流模型 SDXL,其圖像生成錯(cuò)誤率顯著降低 62%,并同步實(shí)現(xiàn)像素級指令編輯能力,標(biāo)志著其成為自回歸模型領(lǐng)域首個(gè)達(dá)到 SOTA 水平的模型。
?

?
傳統(tǒng)自回歸圖像模型的核心矛盾在于:如何將高維圖像轉(zhuǎn)化為模型可處理的“令牌”?多數(shù)方案采用矢量量化(VQ)技術(shù),將圖像壓縮為離散的視覺令牌,但這一過程不可避免造成信息損失,導(dǎo)致生成圖像模糊或失真。NextStep-1 的突破在于——不依賴離散化。
?
技術(shù)架構(gòu)層面,NextStep-1 創(chuàng)新采用 14B 參數(shù) Transformer 主干與 157M 輕量級流匹配頭的雙模塊設(shè)計(jì)。核心突破來源于連續(xù)視覺空間生成技術(shù),通過新型圖像 tokenizer 將圖像編碼為 16 通道連續(xù)表示,使用該架構(gòu),模型規(guī)避了傳統(tǒng) VQ 模型的量化損失。
?

?
其中通道歸一化技術(shù)的應(yīng)用,使高維隱空間訓(xùn)練穩(wěn)定性提升 300%,為高質(zhì)量輸出奠定基礎(chǔ)。模型同時(shí)引入流匹配目標(biāo)優(yōu)化策略,僅需輕量級MLP結(jié)構(gòu)即可預(yù)測圖像塊速度向量,實(shí)現(xiàn) patch-by-patch 精準(zhǔn)生成。
?
多模態(tài)統(tǒng)一序列的構(gòu)建方案進(jìn)一步強(qiáng)化了文本與圖像的協(xié)同,采用<image_area>h w <boi>{image}<eoi>格式將異構(gòu)數(shù)據(jù)整合為單一序列,使語言建模頭與流匹配頭得以并行計(jì)算損失。
?
架構(gòu)上,NextStep-1 采用統(tǒng)一的自回歸框架,將離散文本令牌與連續(xù)圖像令牌混合成單一序列建模,核心組件包括:
-
主干模型:140 億參數(shù)的因果 Transformer,負(fù)責(zé)整體序列建模;
-
雙頭輸出:文本分支采用標(biāo)準(zhǔn)語言模型(LM)頭部預(yù)測下一個(gè)詞,視覺分支通過輕量級流匹配頭(Flow Matching Head,1.57億參數(shù))預(yù)測圖像塊的連續(xù)流。
?
訓(xùn)練策略采用預(yù)訓(xùn)練+后訓(xùn)練的三階段優(yōu)化,以平衡質(zhì)量與可控性:
?
-
預(yù)訓(xùn)練:采用三階段課程學(xué)習(xí),逐步提升模型能力,在大規(guī)模圖文對數(shù)據(jù)上學(xué)習(xí)基礎(chǔ)生成能力;
-
監(jiān)督微調(diào)(SFT):使用高質(zhì)量標(biāo)注數(shù)據(jù)提升指令遵循與細(xì)節(jié)表現(xiàn);
-
直接偏好優(yōu)化(DPO):對齊人類審美偏好,提升生成結(jié)果的自然度與可用性。

?
這一流程確保模型不僅能生成,更能“生成得好”。
?
在權(quán)威基準(zhǔn)測試中,NextStep-1 在多個(gè)領(lǐng)域展現(xiàn)出領(lǐng)先性能:
在文本到圖像生成能力方面,該模型的 WISE 基準(zhǔn)得分 0.54,GenAI-Bench 基礎(chǔ)提示得分為 0.88,進(jìn)階提示得分 0.67,超越 Emu3 等自回歸模型:
?

?
圖像編輯能力:GEdit-Bench 英文評分 6.58,ImgEdit-Bench 評分 3.71,媲美專業(yè)編輯模型。
?

?
跨模態(tài)理解:OneIG-Bench 綜合得分 0.417,在對齊性、風(fēng)格控制等維度表現(xiàn)均衡。
?

?
目前,階躍星辰(StepFun)團(tuán)隊(duì)已公開其代碼和模型資源。而面對千億級 token 訓(xùn)練需求對高分辨率拓展的制約,視頻生成版本 NextStep-V 已完成內(nèi)部測試,計(jì)劃本季度末開放企業(yè) API接口。
?
NextStep-1 的發(fā)布,不僅是階躍星辰在多模態(tài)生成領(lǐng)域的一次技術(shù)突圍,更驗(yàn)證了自回歸模型在視覺任務(wù)中的潛力。
?
隨著社區(qū)參與與技術(shù)迭代,自回歸模型或許有望在圖像生成領(lǐng)域開辟更廣闊的天地。

















