論文鏈接:https:arxiv.orgpdf2511.14760亮點直擊推出UniGen1.5統一多模態大模型,通過創新的架構設計與訓練流程,實現了先進的圖像理解、生成與編輯能力融合。開創統一強化學習訓練框架,借助共享獎勵模型協同優化圖像編輯與生成任務,顯著提升雙任務性能表現。提出后SFT階段的編輯指令對齊機制,通過強化編輯指令理解能力,大幅提升模型編輯效果。UniGen1.5在多項任務中達到業界領先水平:如下圖1所示,在圖像編輯任務(ImgEd...
論文鏈接(arXiv):??https:arxiv.orgabs2511.14993??開源代碼(GitHub):??https:github.comkandinskylabkandinsky5??HuggingFace:??https:huggingface.cokandinskylab??項目官網:??https:kandinskylab.ai???亮點直擊Kandinsky5.0,是一套專為高分辨率圖像和視頻合成設計的SOTA基礎模型家族。全套模型開源陣容:(1)Kandinsky5.0ImageLite(6B):用于圖像生成和編輯。(2)Kandinsky5.0VideoLite(2B):輕量級文本圖像...
文章鏈接:https:arxiv.orgpdf2511.13720亮點直擊解決的問題提出的方案達到的效果優秀的可擴展性:JiT模型展現了卓越的伸縮性。分辨率擴展:通過成比例地增大patch大小,JiTB模型可以輕松地從256x256擴展到512x512甚至1024x1024分辨率,而模型參數量和計算量幾乎保持不變,FID分數也保持在很低的水平。這證明該方法不受觀測維度急劇增加的影響。模型規模擴展:從JiTB(Base)到JiTG(Giant)模型,性能隨著模型尺寸的增大而持續穩...
論文鏈接:https:arxiv.orgpdf2511.11434項目鏈接:https:weichow23.github.ioweave亮點直擊數據集創新:WEAVE100k——首個面向多輪上下文感知圖像理解與生成的大規模數據集。包含10萬個樣本、37萬輪對話和50萬張圖像,全面覆蓋圖像理解、編輯與生成三大任務。評估體系構建:WEAVEBench是首個面向交錯式多模態理解與生成任務的人工標注評測基準。該基準包含100個精心設計的測試案例,并創新性地采用混合VLM評估框架,系統評估多輪...
文章鏈接:https:arxiv.orgpdf2511.09611代碼鏈接:https:github.comtyfeldMMaDAParallel亮點直擊深入的基準測試與分析:ParaBench,一個新的基準測試,旨在系統性地評估“思考感知”型圖像生成與編輯任務。它不僅關注最終生成的圖像和文本的質量,更核心的是評估兩者之間的對齊程度。并行的多模態擴散框架:提出了一個純粹基于離散擴散的并行框架,用于“思考感知”型的圖像編輯與生成。該框架允許文本和圖像兩種模態在每一個...
文章鏈接:https:arxiv.orgpdf2511.08930亮點直擊系統性分析與統一視角:對軌跡蒸餾(TD)進行了系統性分析,揭示了其本質是一種有損壓縮過程。這一視角解釋了為何TD方法雖然能有效保留全局結構,卻不可避免地會犧牲精細細節。創新的分層蒸餾框架:重新審視軌跡蒸餾和分布蒸餾的角色,提出一個新穎的分層蒸餾(HierarchicalDistillation,HD)框架。該框架協同利用兩種方法的優勢,先構建結構,再優化細節。專為細節優化的判別器...
2025-11-14 10:18:23 460瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.26802v1項目主頁:https:videocof.github.io引言近年來,以Veo、Sora等為代表的視頻生成模型展現出驚人的生成能力,能夠合成高度逼真、時間連續的動態畫面。這些進展暗示,模型在視覺內容生成之外,或許已開始具備對物理世界結構與規律的潛在理解。值得注意的是,Google最新研究指出,諸如Veo3等模型正在顯現出超越純粹生成的“涌現能力”,例如感知建模、動態預測以及推理能力。由此催生出一...
2025-11-13 09:05:50 827瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2511.07399工程鏈接:https:streamdiffusionv2.github.io亮點直擊StreamDiffusionV2,這是一個免訓練的流式系統,專為視頻擴散模型設計,用于實現動態交互式的視頻生成。巧妙整合了SLOaware批處理調度器、塊調度器、sinktoken引導的滾動KV緩存以及運動感知噪聲控制器等創新組件,同時引入可擴展的pipeline編排機制。該系統首次在多GPU環境下實現了實時SLO約束下的高效生成,支持從單個創作者到企業...
2025-11-12 09:14:04 1625瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.00438項目鏈接:https:lzydot.github.ioBindWeave亮點直擊BindWeave:針對現有視頻生成技術在主題一致性方面的瓶頸,提出了一個專為主題一致性視頻生成設計的新型框架。引入多模態大語言模型作為深度指令解析器。使用MLLM替代傳統的淺層融合機制,實現了深度跨模態語義關聯。構建統一交織序列與隱狀態生成機制。將參考圖像與文本提示整合成統一序列,有效銜接高層語義解析與擴散生成過程。多...
2025-11-11 08:32:15 433瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2507.20177代碼鏈接:https:github.comGXNUZhongLabODTrack亮點直擊為視覺跟蹤領域提供了首個通用的視頻級模態感知跟蹤模型。UMODTrack僅需訓練一次,即可使用相同的架構和參數實現多任務推理,包括RGBTDE跟蹤任務。對于視頻級關聯,引入了兩種時序令牌傳播注意力機制,將目標的判別性特征壓縮到一個令牌序列中。該令牌序列作為提示來指導未來幀的推理,從而避免了復雜的在線更新策略。對于多模態...
2025-11-10 09:01:50 1361瀏覽 0點贊 0回復 0收藏
論文鏈接:https:ieeexplore.ieee.orgabstractdocument11206511代碼鏈接:https:github.combytedanceRealCustom項目鏈接:https:corleonehuang.github.ioRealCustomplusplusHuggingFace:https:huggingface.cobytedanceresearchRealCustom亮點直擊突破傳統方法存在的主體一致性和文本可控性之間的權衡取舍問題,創新性地將參考圖主體表征為真實文本單詞,通過解耦文本和參考圖的影響區域,同時實現高度主體一致性和文本可控性;...
2025-11-06 09:01:11 370瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.24657項目&代碼鏈接:https:littlemisfit.github.ioGRAGImageEditing亮點直擊通過大量實驗,發現MMDiT中查詢和鍵嵌入存在偏置分布,并對其在圖像編輯任務中的作用進行了數學分析;提出組相對注意力引導(GRAG),這一新方法通過利用token間的相對關系來調控圖像編輯過程,借助其與組偏置的偏差實現精確可控的編輯;在多個基線模型上開展廣泛實驗,并在多樣化的編輯任務中評估性能,證明了本方...
2025-11-05 09:23:14 464瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2510.18692項目鏈接:https:jiawncreator.github.iomixtureofgroupsattentionMoGA生成的一分鐘視頻亮點直擊MoGA,一種有效的稀疏注意力機制,它通過輕量級tokenrouter用精確的組分配取代了塊級評分,從而能夠對長上下文進行有效建模。基于MoGA,引入了一種視頻生成模型,能夠生成分鐘級別、多鏡頭、480p分辨率、24fps的視頻,其上下文長度約為58萬個tokens。廣泛的評估顯示,相較于最先進的稀疏注...
2025-11-04 09:01:56 795瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2506.00512代碼鏈接:https:github.comshuoyueli4519Pro3DEditorCode項目網頁:https:shuoyueli4519.github.ioPro3DEditor亮點直擊提出了漸進式視圖編輯范式,將編輯信息從編輯顯著視圖投影到編輯稀疏視圖上,解決了多視圖編輯時特征不一致的問題。基于提出的范式設計了3D物體編輯框架Pro3DEditor,實現了一致且精確的3D物體編輯。在3D物體編輯任務上表現突出,編輯質量及編輯準確性優于現有方法。...
2025-11-04 08:52:38 425瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.20888項目鏈接:https:bytedance.github.ioVideoAsPrompt亮點直擊提出VAP這一統一語義控制視頻生成范式,將具備目標語義的參考視頻視為可泛化的上下文控制視頻提示。基于混合Transformer架構構建即插即用的上下文視頻生成框架,該框架能有效防止災難性遺忘,支持多樣下游任務,并對未見的語義條件具備強大的零樣本泛化能力。構建并發布當前最大的語義控制視頻生成數據集VAPData,涵蓋100種語...
2025-10-31 08:55:19 1208瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2510.23576項目鏈接:https:pkuepic.github.ioUrbanVLAWeb圖1:UrbanVLA的實際部署展示了在具有未知布局、動態障礙物和不同光照的各種環境中的zeroshot泛化能力,并突出了其執行跨度超過500米的長距離城市微移動任務的能力。亮點直擊首個專為城市微出行設計的路由條件VLA框架:首次提出了一個專門用于城市微出行(如送貨機器人)的路由條件視覺語言動作(VisionLanguageAction,VLA)模型,它能夠將...
2025-10-29 09:58:37 2754瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.20822項目鏈接:https:holocine.github.io圖1.僅憑文字提示,HoloCine就能整體生成連貫的電影多鏡頭視頻敘事。圖中展示了我們模型的多功能性,包括各種原創場景(前三行)和向《泰坦尼克號》致敬的電影場景(后三行)。所有場景都表現出卓越的角色一致性和敘事連貫性。最后一排的擴展畫面展示了流暢的鏡頭內運動和質量。亮點直擊HoloCine,這是一種通過兩個專門設計的架構解鎖整體生成潛力的...
2025-10-28 09:36:27 1443瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2510.16888Git鏈接:https:github.comPKUYuanGroupEditR1亮點直擊EditR1框架:結合DiffusionNFT技術與預訓練多模態大模型(MLLM)構建免訓練獎勵機制,實現對擴散模型的指令驅動圖像編輯微調。驗證獎勵信號優越性:證明該框架提供的獎勵信號具備更高的人類偏好對齊度,可生成穩定、低成本、低幻覺的反饋信號,有效提升訓練穩定性。實證性能突破:實驗表明,該方法顯著提升UniWorldV2、QwenImageEdi...
2025-10-27 09:28:12 1685瀏覽 0點贊 0回復 0收藏
文章鏈接:??https:arxiv.orgpdf2510.19808??代碼鏈接:?https:github.comapplepicobanana400k??亮點直擊大規模且真實:包含約40萬個基于真實世界照片生成的圖像編輯樣本,克服了以往數據集依賴合成圖像或規模有限的問題。多目標訓練支持:數據集不僅包含25.8萬個用于監督式微調的單輪編輯樣本,還提供了5.6萬個偏好對(成功vs.失敗的編輯),可用于直接偏好優化(DPO)和獎勵模型訓練,以提升模型的魯棒性和對齊能力。復...
2025-10-24 08:59:14 1538瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2510.12747項目鏈接:https:zhuang2002.github.ioFlashVSR代碼鏈接:https:github.comOpenImagingLabFlashVSR模型鏈接:https:huggingface.coJunhaoZhuangFlashVSR高分辨率視頻修復的效率和性能比較與最先進的VSR模型(如DOVE和SeedVR23B)相比,FlashVSR能還原更清晰的紋理和更細致的結構。它使用單個A100GPU在768×1408視頻上實現了接近實時的17FPS性能,與最快的一步擴散VSR模型相比,速度提高...
2025-10-23 10:07:35 3246瀏覽 0點贊 0回復 0收藏