浙大重磅推出統一虛擬試穿框架OmniTry:突破服裝局限,實現多品類可穿戴物品虛擬試穿無蒙版新跨越
在虛擬試穿(VTON)領域,現有研究多聚焦于服裝,這在一定程度上限制了其應用范圍。浙江大學團隊提出了一個統一框架 OmniTry,該框架將 VTON 的應用范疇拓展至服裝之外的各類可穿戴物品,像珠寶、配飾等,還提供無蒙版設置以貼合實際應用場景。面對擴展物品類型時數據管理獲取配對圖像的難題,團隊設計了獨特的兩階段流程,巧妙利用大規模未配對圖像和少量配對圖像訓練微調模型。經基于綜合基準的評估,OmniTry 在物體定位和身份保存上表現卓越,且代碼、模型權重和評估基準即將公開,有望推動該領域發展。

試穿結果
在包含 12 個主要可穿戴物品類別的 OmniTry-Bench 上進行評估的結果。
圖片
與現有方法的比較

將 OmniTry 擴展到不常見的類。

unsetunset相關鏈接unsetunset
- 論文:https://arxiv.org/pdf/2508.13632
- 主頁:https://omnitry.github.io/
- 代碼:??https://github.com/Kunbyte-AI/OmniTry??
- 模型:https://huggingface.co/Kunbyte/OmniTry

論文介紹

虛擬試穿 (VTON) 是一項實用且應用廣泛的任務,現有研究大多側重于服裝。本文提出了一個統一的框架 OmniTry,它將 VTON 的范圍從服裝擴展到任何可穿戴物品,例如珠寶和配飾,并提供無遮罩設置,以實現更實際的應用。當擴展到各種類型的物品時,獲取配對圖像(即物品圖像和相應的試穿結果)的數據管理具有挑戰性。
為了解決這個問題,論文提出了一個兩階段流程:
- 利用大規模未配對圖像(即帶有任何可穿戴物品的肖像)來訓練模型進行無遮罩定位。論文重新設計了修復模型,使其能夠在給定空遮罩的情況下自動將物品繪制到合適的位置。
- 使用配對圖像進一步微調模型,以遷移物品外觀的一致性。即使只有少量配對樣本,第一階段后的模型也能快速收斂。
OmniTry 的評估基于一個包含 12 類常見可穿戴物品的綜合基準,其中包含店內和野外圖像。實驗結果表明,與現有方法相比,OmniTry 在物體定位和身份保存方面均表現出色。
方法概述

OmniTry 的兩階段訓練流程。 第一階段基于自然場景人像圖像,以無口罩的方式將可穿戴物品添加到人物身上。第二階段引入店內配對圖像,旨在控制物體外觀的一致性。
unsetunset實驗結果unsetunset



結論
OmniTry 是一個統一的無遮罩試穿框架,它將現有的服裝試穿擴展至任何可穿戴物體。為了解決許多類型物體缺乏豐富的配對樣本(即物體和試穿圖像)的問題,在 OmniTry 中提出了一個兩階段訓練流程。
- 第一階段,利用大規模未配對圖像來監督模型進行無遮罩物體定位。
- 第二階段,則對模型進行訓練以保持物體的一致性。
論文詳細闡述了 OmniTry 的設計,包括用于避免捷徑學習的無痕擦除、用于無遮罩生成的基于圖像修復的重新利用策略以及用于身份遷移的帶遮罩全注意力機制。提出了一個針對統一試穿的新基準,并證明了 OmniTry 與現有方法相比的有效性。大量的實驗也驗證了 OmniTry 即使使用少量配對圖像進行訓練也能實現高效的學習。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















