3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式

發(fā)布于 2024-5-30 12:56

瀏覽

0收藏

在當(dāng)今數(shù)字化時代，3D 資產(chǎn)在元宇宙的建構(gòu)、數(shù)字孿生的實(shí)現(xiàn)以及虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的應(yīng)用中扮演著重要角色，促進(jìn)了技術(shù)創(chuàng)新和用戶體驗(yàn)的提升。

現(xiàn)有的 3D 資產(chǎn)生成方法通常利用生成式模型基于空間變化雙向反射分布函數(shù)（SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function）在預(yù)設(shè)光照條件下推斷表面位置的材質(zhì)屬性特征。然而，這些方法很少考慮到人們對身邊常見物體的表面材質(zhì)認(rèn)知構(gòu)建出的強(qiáng)大且豐富的先驗(yàn)知識（如汽車輪胎應(yīng)為外緣的橡膠胎面包裹住金屬的輪轂），且忽略了材質(zhì)應(yīng)該與物體本身的 RGB 色彩進(jìn)行解耦。

因此，如何將人類對物體表面材質(zhì)的先驗(yàn)知識有效地融入到材質(zhì)生成過程中，從而提高現(xiàn)有 3D 資產(chǎn)的整體質(zhì)量，成為了當(dāng)前研究的重要課題。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

針對這一問題，近日，中國科學(xué)院自動化研究所、北京郵電大學(xué)及香港理工大學(xué)等京港兩地的研究團(tuán)隊(duì)發(fā)布了名為《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的論文，構(gòu)造了首個針對多種類復(fù)雜材質(zhì)物體的 2D 材質(zhì)分割數(shù)據(jù)集 MIO，其包含了多種語義類別下的、單一物體的、各個相機(jī)視角的像素級材質(zhì)標(biāo)簽。該研究提出了一種能夠利用 2D 語義先驗(yàn)在 UV 空間中推斷出 3D 資產(chǎn)表面材質(zhì)的材質(zhì)生成方案 ——MaterialSeg3D。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

論文：https://arxiv.org/pdf/2404.13923
代碼地址：https://github.com/PROPHETE-pro/MaterialSeg3D_
項(xiàng)目網(wǎng)站：https://materialseg3d.github.io/

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

3D 建模師通常根據(jù)生活常識或真實(shí)世界的物體原型來定義資產(chǎn)表面的材質(zhì)。相比之下，基于生成式模型構(gòu)建 3D 資產(chǎn)的方法使用 SVBRDF 來推斷材質(zhì)信息，但由于缺乏準(zhǔn)確的高質(zhì)量 3D 資產(chǎn)樣本，這些方法難以生成高泛化性和高保真度的物理材質(zhì)通道信息。此外，這類方法也未能利用公開網(wǎng)站中的海量 Web Image 數(shù)據(jù)來豐富物體表面材質(zhì)信息的先驗(yàn)知識。

因此，本文聚焦于如何將 2D 圖片中關(guān)于材質(zhì)的先驗(yàn)知識引入解決 3D 資產(chǎn)材質(zhì)信息定義的任務(wù)中。

MIO 數(shù)據(jù)集

這篇論文首先嘗試從現(xiàn)有 3D 資產(chǎn)數(shù)據(jù)集中提取材質(zhì)分類的先驗(yàn)知識，但由于數(shù)據(jù)集樣本過少且風(fēng)格單一，分割模型難以學(xué)習(xí)到正確的先驗(yàn)知識。

相比 3D 資產(chǎn)，2D 圖像則更為廣泛地存在于公開網(wǎng)站或數(shù)據(jù)集上。然而，現(xiàn)有的帶注釋 2D 圖像數(shù)據(jù)集與 3D 資產(chǎn)渲染圖的分布存在較大差距，無法直接提供足夠的材質(zhì)先驗(yàn)知識。

因此，本文構(gòu)建了一個定制數(shù)據(jù)集 MIO（Materialized Individual Objects），是目前最大的多類別單一復(fù)雜材質(zhì)資產(chǎn)的 2D 材質(zhì)分割數(shù)據(jù)集，包含了從各種相機(jī)角度采樣的圖像，并由專業(yè)團(tuán)隊(duì)精確注釋。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

材質(zhì)類注釋和 PBR 材質(zhì)球體映射的可視化示例。

在構(gòu)造該數(shù)據(jù)集時，本文遵循以下規(guī)則:

每張采樣圖像中只包含一個突出的前景物體
收集相似數(shù)量的真實(shí)場景 2D 圖片和 3D 資產(chǎn)渲染圖
收集各個相機(jī)角度的圖像樣本，包括頂視圖和仰視圖等特殊視角

MIO 數(shù)據(jù)集的獨(dú)到之處在于，它不僅僅構(gòu)造了每種材質(zhì)類別的像素級標(biāo)簽，還單獨(dú)構(gòu)建了每個材質(zhì)類別與 PBR 材質(zhì)取值間的一一映射關(guān)系。這些映射關(guān)系是由 9 名專業(yè) 3D 建模師經(jīng)過討論后確定的。本文從公共材質(zhì)庫收集了超過 1000 個真實(shí)的 PBR 材質(zhì)球作為備選材質(zhì)，并依據(jù)建模師的專業(yè)知識進(jìn)行篩選與指定，最終確定了 14 個材質(zhì)類別并將其與 PBR 材質(zhì)的映射關(guān)系作為數(shù)據(jù)集的標(biāo)注空間。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

MIO 數(shù)據(jù)集共包含 23,062 張單個復(fù)雜物體的多視角圖像，分為 5 個大的元類：家具、汽車、建筑、樂器和植物，具體又可以分為 20 種具體的類別，特別值得一提的是，MIO 數(shù)據(jù)集中包含大約 4000 張俯視圖圖像，提供了在現(xiàn)有 2D 數(shù)據(jù)集中很少出現(xiàn)的獨(dú)特視角。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

MaterialSeg3D

有了 MIO 數(shù)據(jù)集作為可靠的材質(zhì)信息先驗(yàn)知識來源，這篇論文隨后提出了名為 MaterialSeg3D 的全新 3D 資產(chǎn)表面材質(zhì)預(yù)測新范式，為給定的資產(chǎn)表面生成合理的 PBR 材質(zhì)，從而能夠真實(shí)地模擬物體的物理特性，包括光照、陰影和反射，使 3D 物體在各種環(huán)境下都表現(xiàn)出高度的真實(shí)性和一致性，為現(xiàn)有 3D 資產(chǎn)缺乏材質(zhì)信息的問題提出有效解決方案。

MaterialSeg3D 整個處理流程中包括三個部分：3D 資產(chǎn)的多視圖渲染、多視圖下的材質(zhì)預(yù)測和 3D 材質(zhì) UV 生成。在多視圖渲染階段，確定了俯視圖、側(cè)視圖和 12 個環(huán)繞角度的相機(jī)姿勢，以及隨機(jī)的俯仰角度，生成 2D 渲染圖像。在材質(zhì)預(yù)測階段，利用基于 MIO 數(shù)據(jù)集訓(xùn)練的材質(zhì)分割模型，對多視角渲染圖進(jìn)行像素級的材質(zhì)標(biāo)簽預(yù)測。在材質(zhì) UV 生成階段，將材質(zhì)預(yù)測結(jié)果映射到臨時 UV 圖上，通過加權(quán)投票機(jī)制處理得到最終的材質(zhì)標(biāo)簽 UV，并轉(zhuǎn)化為 PBR 材質(zhì)貼圖。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

可視化的效果與實(shí)驗(yàn)

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

為評估 MaterialSeg3D 的有效性，本文進(jìn)行了與近期相似工作的定量與定性實(shí)驗(yàn)分析，重點(diǎn)關(guān)注單圖像到 3D 資產(chǎn)的生成方法、紋理生成以及公共 3D 資產(chǎn)三個方面。對于單圖像到 3D 資產(chǎn)的生成方法，與 Wonder3D、TripoSR 和 OpenLRM 進(jìn)行了比較，這些方法將資產(chǎn)的某一參照視圖作為輸入，直接生成具有紋理特征的 3D 對象。通過可視化圖片觀察到，MaterialSeg3D 處理后的資產(chǎn)在渲染的真實(shí)性方面相較之前的工作有顯著改善。論文還比較了現(xiàn)有的紋理生成方法，如 Fantasia3D、Text2Tex 以及 Meshy 網(wǎng)站提供的在線功能，這些方法可以根據(jù)文本提示信息生成紋理結(jié)果。

在此基礎(chǔ)上，MaterialSeg3D 在不同的光照條件下能夠生成精確的 PBR 材質(zhì)信息，使渲染效果更加真實(shí)。

定量實(shí)驗(yàn)采用 CLIP Similarity、PSNR、SSIM 作為評價指標(biāo)，選擇 Objaverse-1.0 數(shù)據(jù)集中的資產(chǎn)作為測試樣本，并隨機(jī)選擇三個相機(jī)角度作為新視圖。

3D資產(chǎn)生成領(lǐng)域福音：自動化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式-AI.x社區(qū)

這些實(shí)驗(yàn)證明了 MaterialSeg3D 的有效性。其能夠生成公共 3D 資產(chǎn)缺失的 PBR 材質(zhì)信息，為建模師和后續(xù)的研究工作提供更多優(yōu)質(zhì)資產(chǎn)。

總結(jié)與展望

這篇論文針對 3D 資產(chǎn)表面材質(zhì)生成問題進(jìn)行了探索，構(gòu)建了定制的 2D 材質(zhì)分割數(shù)據(jù)集 MIO。在這一可靠數(shù)據(jù)集的支持下，提出了新的 3D 資產(chǎn)表面材質(zhì)生成范式 MaterialSeg3D，能夠?yàn)閱蝹€ 3D 資產(chǎn)生成可解耦的獨(dú)立 PBR 材質(zhì)信息，顯著增強(qiáng)了現(xiàn)有 3D 資產(chǎn)在不同光照條件下的渲染真實(shí)性和合理性。

作者指出，未來的研究將專注于擴(kuò)展數(shù)據(jù)集中物體元類的數(shù)量、通過生成偽標(biāo)簽擴(kuò)大數(shù)據(jù)集規(guī)模以及對材質(zhì)分割模型進(jìn)行自訓(xùn)練，以便該生成范式能夠直接應(yīng)用于絕大多數(shù)種類的 3D 資產(chǎn)。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/u_9G6qOgZvO1lcAKAgG7Vg??

標(biāo)簽

3D 生成

贊

回復(fù)