3D資產(chǎn)生成領(lǐng)域福音:自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式
在當(dāng)今數(shù)字化時代,3D 資產(chǎn)在元宇宙的建構(gòu)、數(shù)字孿生的實(shí)現(xiàn)以及虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的應(yīng)用中扮演著重要角色,促進(jìn)了技術(shù)創(chuàng)新和用戶體驗(yàn)的提升。
現(xiàn)有的 3D 資產(chǎn)生成方法通常利用生成式模型基于空間變化雙向反射分布函數(shù)(SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function)在預(yù)設(shè)光照條件下推斷表面位置的材質(zhì)屬性特征。然而,這些方法很少考慮到人們對身邊常見物體的表面材質(zhì)認(rèn)知構(gòu)建出的強(qiáng)大且豐富的先驗(yàn)知識(如汽車輪胎應(yīng)為外緣的橡膠胎面包裹住金屬的輪轂),且忽略了材質(zhì)應(yīng)該與物體本身的 RGB 色彩進(jìn)行解耦。
因此,如何將人類對物體表面材質(zhì)的先驗(yàn)知識有效地融入到材質(zhì)生成過程中,從而提高現(xiàn)有 3D 資產(chǎn)的整體質(zhì)量,成為了當(dāng)前研究的重要課題。

針對這一問題,近日,中國科學(xué)院自動化研究所、北京郵電大學(xué)及香港理工大學(xué)等京港兩地的研究團(tuán)隊(duì)發(fā)布了名為《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的論文,構(gòu)造了首個針對多種類復(fù)雜材質(zhì)物體的 2D 材質(zhì)分割數(shù)據(jù)集 MIO,其包含了多種語義類別下的、單一物體的、各個相機(jī)視角的像素級材質(zhì)標(biāo)簽。該研究提出了一種能夠利用 2D 語義先驗(yàn)在 UV 空間中推斷出 3D 資產(chǎn)表面材質(zhì)的材質(zhì)生成方案 ——MaterialSeg3D。

- 論文:https://arxiv.org/pdf/2404.13923
- 代碼地址:https://github.com/PROPHETE-pro/MaterialSeg3D_
- 項(xiàng)目網(wǎng)站:https://materialseg3d.github.io/

3D 建模師通常根據(jù)生活常識或真實(shí)世界的物體原型來定義資產(chǎn)表面的材質(zhì)。相比之下,基于生成式模型構(gòu)建 3D 資產(chǎn)的方法使用 SVBRDF 來推斷材質(zhì)信息,但由于缺乏準(zhǔn)確的高質(zhì)量 3D 資產(chǎn)樣本,這些方法難以生成高泛化性和高保真度的物理材質(zhì)通道信息。此外,這類方法也未能利用公開網(wǎng)站中的海量 Web Image 數(shù)據(jù)來豐富物體表面材質(zhì)信息的先驗(yàn)知識。
因此,本文聚焦于如何將 2D 圖片中關(guān)于材質(zhì)的先驗(yàn)知識引入解決 3D 資產(chǎn)材質(zhì)信息定義的任務(wù)中。
MIO 數(shù)據(jù)集
這篇論文首先嘗試從現(xiàn)有 3D 資產(chǎn)數(shù)據(jù)集中提取材質(zhì)分類的先驗(yàn)知識,但由于數(shù)據(jù)集樣本過少且風(fēng)格單一,分割模型難以學(xué)習(xí)到正確的先驗(yàn)知識。
相比 3D 資產(chǎn),2D 圖像則更為廣泛地存在于公開網(wǎng)站或數(shù)據(jù)集上。然而,現(xiàn)有的帶注釋 2D 圖像數(shù)據(jù)集與 3D 資產(chǎn)渲染圖的分布存在較大差距,無法直接提供足夠的材質(zhì)先驗(yàn)知識。
因此,本文構(gòu)建了一個定制數(shù)據(jù)集 MIO(Materialized Individual Objects),是目前最大的多類別單一復(fù)雜材質(zhì)資產(chǎn)的 2D 材質(zhì)分割數(shù)據(jù)集,包含了從各種相機(jī)角度采樣的圖像,并由專業(yè)團(tuán)隊(duì)精確注釋。

材質(zhì)類注釋和 PBR 材質(zhì)球體映射的可視化示例。
在構(gòu)造該數(shù)據(jù)集時,本文遵循以下規(guī)則:
- 每張采樣圖像中只包含一個突出的前景物體
- 收集相似數(shù)量的真實(shí)場景 2D 圖片和 3D 資產(chǎn)渲染圖
- 收集各個相機(jī)角度的圖像樣本,包括頂視圖和仰視圖等特殊視角
MIO 數(shù)據(jù)集的獨(dú)到之處在于,它不僅僅構(gòu)造了每種材質(zhì)類別的像素級標(biāo)簽,還單獨(dú)構(gòu)建了每個材質(zhì)類別與 PBR 材質(zhì)取值間的一一映射關(guān)系。這些映射關(guān)系是由 9 名專業(yè) 3D 建模師經(jīng)過討論后確定的。本文從公共材質(zhì)庫收集了超過 1000 個真實(shí)的 PBR 材質(zhì)球作為備選材質(zhì),并依據(jù)建模師的專業(yè)知識進(jìn)行篩選與指定,最終確定了 14 個材質(zhì)類別并將其與 PBR 材質(zhì)的映射關(guān)系作為數(shù)據(jù)集的標(biāo)注空間。

MIO 數(shù)據(jù)集共包含 23,062 張單個復(fù)雜物體的多視角圖像,分為 5 個大的元類:家具、汽車、建筑、樂器和植物,具體又可以分為 20 種具體的類別,特別值得一提的是,MIO 數(shù)據(jù)集中包含大約 4000 張俯視圖圖像,提供了在現(xiàn)有 2D 數(shù)據(jù)集中很少出現(xiàn)的獨(dú)特視角。


MaterialSeg3D
有了 MIO 數(shù)據(jù)集作為可靠的材質(zhì)信息先驗(yàn)知識來源,這篇論文隨后提出了名為 MaterialSeg3D 的全新 3D 資產(chǎn)表面材質(zhì)預(yù)測新范式,為給定的資產(chǎn)表面生成合理的 PBR 材質(zhì),從而能夠真實(shí)地模擬物體的物理特性,包括光照、陰影和反射,使 3D 物體在各種環(huán)境下都表現(xiàn)出高度的真實(shí)性和一致性,為現(xiàn)有 3D 資產(chǎn)缺乏材質(zhì)信息的問題提出有效解決方案。
MaterialSeg3D 整個處理流程中包括三個部分:3D 資產(chǎn)的多視圖渲染、多視圖下的材質(zhì)預(yù)測和 3D 材質(zhì) UV 生成。在多視圖渲染階段,確定了俯視圖、側(cè)視圖和 12 個環(huán)繞角度的相機(jī)姿勢,以及隨機(jī)的俯仰角度,生成 2D 渲染圖像。在材質(zhì)預(yù)測階段,利用基于 MIO 數(shù)據(jù)集訓(xùn)練的材質(zhì)分割模型,對多視角渲染圖進(jìn)行像素級的材質(zhì)標(biāo)簽預(yù)測。在材質(zhì) UV 生成階段,將材質(zhì)預(yù)測結(jié)果映射到臨時 UV 圖上,通過加權(quán)投票機(jī)制處理得到最終的材質(zhì)標(biāo)簽 UV,并轉(zhuǎn)化為 PBR 材質(zhì)貼圖。

可視化的效果與實(shí)驗(yàn)

為評估 MaterialSeg3D 的有效性,本文進(jìn)行了與近期相似工作的定量與定性實(shí)驗(yàn)分析,重點(diǎn)關(guān)注單圖像到 3D 資產(chǎn)的生成方法、紋理生成以及公共 3D 資產(chǎn)三個方面。對于單圖像到 3D 資產(chǎn)的生成方法,與 Wonder3D、TripoSR 和 OpenLRM 進(jìn)行了比較,這些方法將資產(chǎn)的某一參照視圖作為輸入,直接生成具有紋理特征的 3D 對象。通過可視化圖片觀察到,MaterialSeg3D 處理后的資產(chǎn)在渲染的真實(shí)性方面相較之前的工作有顯著改善。論文還比較了現(xiàn)有的紋理生成方法,如 Fantasia3D、Text2Tex 以及 Meshy 網(wǎng)站提供的在線功能,這些方法可以根據(jù)文本提示信息生成紋理結(jié)果。
在此基礎(chǔ)上,MaterialSeg3D 在不同的光照條件下能夠生成精確的 PBR 材質(zhì)信息,使渲染效果更加真實(shí)。
定量實(shí)驗(yàn)采用 CLIP Similarity、PSNR、SSIM 作為評價指標(biāo),選擇 Objaverse-1.0 數(shù)據(jù)集中的資產(chǎn)作為測試樣本,并隨機(jī)選擇三個相機(jī)角度作為新視圖。

這些實(shí)驗(yàn)證明了 MaterialSeg3D 的有效性。其能夠生成公共 3D 資產(chǎn)缺失的 PBR 材質(zhì)信息,為建模師和后續(xù)的研究工作提供更多優(yōu)質(zhì)資產(chǎn)。
總結(jié)與展望
這篇論文針對 3D 資產(chǎn)表面材質(zhì)生成問題進(jìn)行了探索,構(gòu)建了定制的 2D 材質(zhì)分割數(shù)據(jù)集 MIO。在這一可靠數(shù)據(jù)集的支持下,提出了新的 3D 資產(chǎn)表面材質(zhì)生成范式 MaterialSeg3D,能夠?yàn)閱蝹€ 3D 資產(chǎn)生成可解耦的獨(dú)立 PBR 材質(zhì)信息,顯著增強(qiáng)了現(xiàn)有 3D 資產(chǎn)在不同光照條件下的渲染真實(shí)性和合理性。
作者指出,未來的研究將專注于擴(kuò)展數(shù)據(jù)集中物體元類的數(shù)量、通過生成偽標(biāo)簽擴(kuò)大數(shù)據(jù)集規(guī)模以及對材質(zhì)分割模型進(jìn)行自訓(xùn)練,以便該生成范式能夠直接應(yīng)用于絕大多數(shù)種類的 3D 資產(chǎn)。
本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心

















