上海交通大學(xué)推出單圖像生成3D場景方法SceneGen,它以單個場景圖像與目標(biāo)資源蒙版為輸入,在一次前饋中就能同時合成多個具備結(jié)構(gòu)、紋理及相對空間位置的3D資源。通過結(jié)合專用視覺和幾何編碼器提取資源與場景級特征,再經(jīng)特征聚合模塊有效融合。精心設(shè)計使其可推廣至多圖像輸入,提升生成質(zhì)量。經(jīng)定量和定性評估,SceneGen能生成物理合理且相互一致的3D資源,性能遠超前代。相關(guān)鏈接論文:https:arxiv.orgpdf2508.15769代碼:htt...
7天前 248瀏覽 0點贊 0回復(fù) 0收藏
港科大與清華相關(guān)研究揭示了MMDiT模型注意力機制的關(guān)鍵特征,在此基礎(chǔ)上提出新型注意力控制方法ConsistEdit。該方法融合純視覺注意力控制等多種操作,生成一致且與提示對齊的編輯結(jié)果。其優(yōu)勢顯著,可實現(xiàn)多輪編輯,在編輯區(qū)域執(zhí)行結(jié)構(gòu)保持與形狀改變且保持身份不變,能一次性處理多區(qū)域編輯并保留相關(guān)結(jié)構(gòu)與內(nèi)容,還能平滑控制編輯區(qū)域一致性強度。此外,它不僅適用于圖像編輯和校正流模型,還能推廣到所有MMDiT變體。ConsistE...
7天前 648瀏覽 0點贊 0回復(fù) 0收藏
RAGDiffusion是由上海交通大學(xué)與阿里巴巴聯(lián)合提出的一項前沿技術(shù),旨在解決標(biāo)準(zhǔn)服裝資產(chǎn)生成中的結(jié)構(gòu)失真與細節(jié)模糊問題。該技術(shù)通過引入檢索增強生成(RAG)框架,結(jié)合對比學(xué)習(xí)和結(jié)構(gòu)局部線性嵌入(SLLE),實現(xiàn)了對服裝結(jié)構(gòu)的高精度捕捉與細節(jié)的真實還原。同時,RAGDiffusion支持多模態(tài)輸入,能夠理解復(fù)雜語義關(guān)系,生成多樣化的高質(zhì)量服裝圖像,為時尚設(shè)計、電商展示等領(lǐng)域帶來了革命性變化。RAGDiffusion通過吸收檢索到的知...
7天前 188瀏覽 0點贊 0回復(fù) 0收藏
在科技飛速發(fā)展的當(dāng)下,AI圖像生成領(lǐng)域正經(jīng)歷著翻天覆地的變化。StepFun推出的NextStep1模型堪稱行業(yè)“黑馬”,它打破傳統(tǒng),為自回歸模型在圖像生成領(lǐng)域開辟全新道路。這一擁有140億參數(shù)的純自回歸模型,不僅實現(xiàn)了堪比頂尖擴散系統(tǒng)的圖像生成質(zhì)量,還具備強大的圖像編輯能力,能輕松應(yīng)對各種日常自然語言指令下的編輯操作。下面就讓我們一起深入了解這款突破性模型。NextStep1突破了基于文本創(chuàng)建和編輯圖像的極限。NextStep1的...
2025-11-05 07:31:06 402瀏覽 0點贊 0回復(fù) 0收藏
天津大學(xué)與快手科技的研究團隊針對基于擴散變換器的圖像編輯技術(shù)中編輯程度控制難的問題,提出組相對注意力引導(dǎo)(GRAG)方法。研究發(fā)現(xiàn)DiT模型MMAttention機制里Query和Key的token嵌入特征有僅與層相關(guān)的偏置向量。相關(guān)鏈接論文:https:arxiv.orgabs2510.24657主頁:https:github.comlittlemisfitGRAGImageEditing試用:https:huggingface.cospacesLittleECHOGRAGImageEditing論文介紹論文標(biāo)題:圖像編輯中的群體相對注意力引導(dǎo)近...
2025-11-05 07:30:08 585瀏覽 0點贊 0回復(fù) 0收藏
TripoAI發(fā)布了最新3D生成模型TripoSG,能夠生成與輸入圖像精確對應(yīng)的高保真3D形狀樣本。涵蓋各種復(fù)雜結(jié)構(gòu)、多樣風(fēng)格、富有想象力的設(shè)計、多對象組合以及細節(jié)豐富的輸出,展現(xiàn)了其強大的生成能力。主要特點總結(jié)如下:高保真生成:生成具有清晰幾何特征、精細表面細節(jié)和復(fù)雜結(jié)構(gòu)的網(wǎng)格語義一致性:生成的形狀準(zhǔn)確反映輸入圖像的語義和外觀強大的泛化能力:處理多種輸入風(fēng)格,包括逼真的圖像、卡通和素描穩(wěn)健的性能:即使對于具有...
2025-10-27 06:36:27 1758瀏覽 0點贊 0回復(fù) 0收藏
由浙江大學(xué)、斯坦福大學(xué)等聯(lián)合提出的DiffLocks,給定一張RGB圖像,DiffLocks使用擴散模型生成精確的3D發(fā)束。該模型基于一個包含RGB圖像和相應(yīng)3D發(fā)束的新型合成頭發(fā)數(shù)據(jù)集進行訓(xùn)練。相關(guān)鏈接論文:https:arxiv.orgpdf2505.06166主頁:https:radualexandru.github.iodifflocks代碼:https:github.comMeshcapadedifflocks數(shù)據(jù)集:https:difflocks.is.tue.mpg.deindex.html論文介紹我們致力于從單張圖像重建頭發(fā)的三維幾何結(jié)構(gòu),由...
2025-10-27 06:35:37 728瀏覽 0點贊 0回復(fù) 0收藏
在圖像編輯與生成領(lǐng)域,基于指令的編輯和主題驅(qū)動的生成雖有進展,但存在局限。前者依賴語言指令難捕捉細節(jié),后者局限于具體物體組合。由香港中文大學(xué)、香港科技大學(xué)、香港大學(xué)及字節(jié)跳動提出的基于多模態(tài)指令的編輯和生成任務(wù)DreamOmni2,支持文本與圖像指令,拓展至抽象概念。通過三步數(shù)據(jù)合成流程解決數(shù)據(jù)創(chuàng)建難題,采用索引編碼等方案優(yōu)化模型框架,還提出全面基準(zhǔn)測試。實驗顯示DreamOmni2成果斐然,模型和代碼即將發(fā)布,...
2025-10-27 06:34:39 1229瀏覽 0點贊 0回復(fù) 0收藏
圖片與GLM4.5相比,GLM4.6帶來了幾項關(guān)鍵改進:更長的上下文窗口:上下文窗口已從128K擴展到200K個標(biāo)記,使模型能夠處理更復(fù)雜的代理任務(wù)。卓越的編碼性能:該模型在代碼基準(zhǔn)測試中取得更高的分?jǐn)?shù),并在ClaudeCode、Cline、RooCode和KiloCode等應(yīng)用程序中展現(xiàn)出更佳的實際性能,包括在生成視覺精美的前端頁面方面的改進。高級推理:GLM4.6推理性能明顯提升,并支持推理過程中的工具使用,整體能力更強。更強大的代理:GLM4.6在...
2025-10-15 00:53:08 2635瀏覽 0點贊 0回復(fù) 0收藏
HunyuanPromptEnhancer是一款基于騰訊混元模型構(gòu)建的提示符重寫工具。它可以在保留原始意圖的同時重構(gòu)輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務(wù)。保留關(guān)鍵元素(主題動作數(shù)量樣式布局關(guān)系屬性文本等)的意圖。鼓勵“總體細節(jié)總結(jié)”的敘述,首先描述主要元素,然后描述次要背景元素,最后以簡潔的風(fēng)格類型總結(jié)。具有優(yōu)雅回退的強大輸出解析:優(yōu)先考慮...;如果缺失,則刪除...并提取干凈的文...
2025-10-15 00:47:32 3697瀏覽 0點贊 0回復(fù) 0收藏
字節(jié)提出的XStreamer是一個端到端的多模態(tài)人像世界建模框架,用于從單一肖像構(gòu)建可無限流式傳輸?shù)臄?shù)字人,并能夠生成跨文本、語音和視頻的智能、實時、多輪響應(yīng)。XStreamer為交互式數(shù)字人的統(tǒng)一世界建模鋪平了道路。XStreamer提供音素級唇部同步,同時在整個視聽交互過程中保持遠程對話記憶和視覺一致性。無限流式生成XStreamer能夠在單一統(tǒng)一架構(gòu)內(nèi)實現(xiàn)跨文本、語音和視頻的無限交互。長對話上下文與智能交互XStreamer可容納多...
2025-10-15 00:45:13 2964瀏覽 0點贊 0回復(fù) 0收藏
由復(fù)旦大學(xué)、微軟亞洲研究院、西安交通大學(xué)以及騰訊混元聯(lián)合提出的StableAvatar是首個端到端視頻擴散轉(zhuǎn)換器,它以參考圖像和音頻為條件,無需任何后處理即可合成無限長度的高質(zhì)量音頻驅(qū)動的頭像視頻。StableAvatar生成的音頻驅(qū)動頭像視頻,展現(xiàn)了其合成無限長且身份保留視頻的強大能力。視頻時長超過3分鐘(FPS30)。FrameX表示合成頭像視頻的第X幀。效果展示所有動畫均由StableAvatar直接合成,無需使用任何后處理工具,例如換...
2025-09-29 07:19:22 3835瀏覽 0點贊 0回復(fù) 0收藏
視頻世界模型(VideoWorldModels)旨在通過預(yù)測環(huán)境未來狀態(tài),實現(xiàn)智能體的規(guī)劃與控制。然而,傳統(tǒng)方法面臨兩大挑戰(zhàn):數(shù)據(jù)依賴:大規(guī)模標(biāo)注視頻數(shù)據(jù)獲取成本高,且需包含動作信息。任務(wù)依賴:動作空間與任務(wù)強相關(guān),泛化能力受限。核心貢獻:DINOWorld是一種基于DINOv2隱空間的視頻世界模型,通過“預(yù)訓(xùn)練+微調(diào)”兩階段框架,實現(xiàn):高效預(yù)訓(xùn)練:在未標(biāo)注視頻數(shù)據(jù)上學(xué)習(xí)通用時空動態(tài)。動作條件微調(diào):少量標(biāo)注數(shù)據(jù)即可適配具體任...
2025-09-29 06:59:31 2963瀏覽 0點贊 0回復(fù) 0收藏
南洋理工大學(xué)SLab與NetflixEyelineStudios研究者合作,提出全新推理范式CineScale,以解決視覺擴散模型生成高分辨率圖像和視頻的核心難題。受訓(xùn)練數(shù)據(jù)和計算資源限制,多數(shù)開源擴散模型在低分辨率訓(xùn)練,生成高分辨率內(nèi)容時問題頻出。CineScale通過無需或極少量微調(diào)的推理技巧,釋放預(yù)訓(xùn)練模型潛力,實現(xiàn)無需微調(diào)生成8K圖像、極少量LoRA微調(diào)生成4K視頻,還將高分辨率生成能力從文生圖、文生視頻擴展到更具挑戰(zhàn)的圖生視頻和視頻生...
2025-09-29 06:54:20 2336瀏覽 0點贊 0回復(fù) 0收藏
今天給大家介紹的FLOAT是一種基于流匹配的音頻驅(qū)動的說話肖像視頻生成方法,可以增強語音驅(qū)動的情感運動。該方法唇形同步質(zhì)量高,生成速度還很快。6秒音頻完美生成語音口型表情。情緒轉(zhuǎn)移由于FLOAT是基于語音驅(qū)動的情緒標(biāo)簽進行訓(xùn)練的,因此它可以在推理階段重新定向說話人像的情緒。具體來說,我們可以用一個簡單的獨熱情緒標(biāo)簽來處理預(yù)測的語音驅(qū)動情緒標(biāo)簽,然后通過無分類器的矢量場進一步細化該標(biāo)簽。這使得用戶即使在駕駛...
2025-09-18 07:02:36 2784瀏覽 0點贊 0回復(fù) 0收藏
HunyuanPromptEnhancer是一款基于騰訊混元模型構(gòu)建的提示符重寫工具。它可以在保留原始意圖的同時重構(gòu)輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務(wù)。保留關(guān)鍵元素(主題動作數(shù)量樣式布局關(guān)系屬性文本等)的意圖。鼓勵“總體細節(jié)總結(jié)”的敘述,首先描述主要元素,然后描述次要背景元素,最后以簡潔的風(fēng)格類型總結(jié)。具有優(yōu)雅回退的強大輸出解析:優(yōu)先考慮...;如果缺失,則刪除...并提取干凈的文...
2025-09-18 07:01:38 3492瀏覽 0點贊 0回復(fù) 0收藏
伊利諾伊大學(xué)香檳分校提出的InstantEdit是一個只需幾步即可完成的圖像編輯框架,能夠高效精準(zhǔn)地進行文本引導(dǎo)的圖像編輯。該方法基于分段修正流模型,只需幾步即可實現(xiàn)精準(zhǔn)編輯。主要功能包括:免訓(xùn)練:無需微調(diào)。開箱即用,可立即編輯。精確控制:與同類的幾步編輯方法相比,在保持圖像一致性的同時實現(xiàn)了更好的可編輯性。多功能應(yīng)用:支持各種編輯任務(wù),包括對象操作、樣式轉(zhuǎn)換和屬性修改下圖為InstantEdit的示例,僅需4個步驟...
2025-09-05 00:13:18 1585瀏覽 0點贊 0回復(fù) 0收藏
SeedDiffusionPreview是字節(jié)跳動種子團隊推出的文本擴散語言模型,旨在驗證離散擴散方法作為下一代語言模型基礎(chǔ)框架的可行性,以結(jié)構(gòu)化代碼生成為實驗領(lǐng)域。團隊引入兩階段擴散訓(xùn)練、約束序?qū)W習(xí)等多項關(guān)鍵技術(shù),經(jīng)實驗驗證有效。結(jié)果顯示,該模型代碼推理速度達2146個tokens,較同等規(guī)模自回歸模型提升5.4倍,且在多個核心代碼基準(zhǔn)測試中性能相當(dāng),在推理速度、生成質(zhì)量上建立新的SOTA,有力證明了方法的有效性。相關(guān)鏈接博客:s...
2025-09-05 00:10:41 2213瀏覽 0點贊 0回復(fù) 0收藏
由高德、北大聯(lián)合推出的統(tǒng)一框架OmniEffects創(chuàng)新性地采用LoRAMoE混合專家架構(gòu),將多種特效無縫集成至統(tǒng)一模型,有效規(guī)避了跨任務(wù)干擾;同時通過空間感知提示SAP與獨立信息流模塊的協(xié)同作用,實現(xiàn)了對特效空間位置的精準(zhǔn)把控,防止了控制信號的混雜。此外還精心構(gòu)建了OmniVFX數(shù)據(jù)集與專用評估框架,為框架的性能驗證提供了堅實支撐。實驗結(jié)果顯示,OmniEffects能精準(zhǔn)控制特效位置,并生成豐富多樣的特效,為電影特效制作帶來了革...
2025-09-05 00:09:19 1426瀏覽 0點贊 0回復(fù) 0收藏
在虛擬試穿(VTON)領(lǐng)域,現(xiàn)有研究多聚焦于服裝,這在一定程度上限制了其應(yīng)用范圍。浙江大學(xué)團隊提出了一個統(tǒng)一框架OmniTry,該框架將VTON的應(yīng)用范疇拓展至服裝之外的各類可穿戴物品,像珠寶、配飾等,還提供無蒙版設(shè)置以貼合實際應(yīng)用場景。面對擴展物品類型時數(shù)據(jù)管理獲取配對圖像的難題,團隊設(shè)計了獨特的兩階段流程,巧妙利用大規(guī)模未配對圖像和少量配對圖像訓(xùn)練微調(diào)模型。經(jīng)基于綜合基準(zhǔn)的評估,OmniTry在物體定位和身份保...
2025-08-26 07:26:29 2177瀏覽 0點贊 0回復(fù) 0收藏