剛剛,ICCV最佳論文出爐,朱俊彥團隊用磚塊積木摘得桂冠
10 月 22 日凌晨,國際計算機視覺大會 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳論文等獎項。
來自卡耐基梅隆大學(CMU)的研究獲得了最佳論文獎,以色列理工學院(Technion)的研究獲得最佳學生論文獎。

ICCV 是全球計算機視覺三大頂會之一,每兩年舉辦一次,今年的會議在美國夏威夷舉行。數據顯示,今年大會共收到了 11239 份有效投稿,程序委員會推薦錄用 2699 篇論文,最終錄用率為 24%,相比上一屆論文數量又有大幅增長。
最佳論文
最佳論文獎是來自卡耐基梅隆大學,AI 領域知名青年學者朱俊彥帶領團隊的論文《Generating Physically Stable and Buildable Brick Structures from Text》。

朱俊彥,清華大學校友,卡耐基梅隆大學計算機科學學院助理教授,前 Adobe 研究科學家。主要研究方向是計算機視覺、圖形學、計算攝影和生成模型。

- 論文標題:Generating Physically Stable and Buildable Brick Structures from Text
- 論文鏈接:https://arxiv.org/pdf/2505.05469
- 開源代碼與模型:https://avalovelace1.github.io/BrickGPT/
這篇論文提出了 BrickGPT,是首個能夠根據文本提示生成物理穩定的相互連接的積木裝配模型的方法。

為實現這一目標,研究團隊構建了一個大規模、物理穩定的積木結構數據集,并為每個結構配備了對應的文本描述。隨后,研究團隊訓練了一個自回歸大型語言模型,通過「預測下一個 token」的方式來預測應添加的下一塊積木。
為了提高生成設計的穩定性,研究者在自回歸推理過程中引入了高效的有效性檢查(validity check)和基于物理約束的回滾機制(physics-aware rollback),利用物理定律與裝配約束來剪枝不可行的 token 預測。
實驗結果表明,BrickGPT 能夠生成穩定、多樣且美觀的積木結構,并且與輸入的文本提示高度契合。我們還開發了一種基于文本的積木貼圖方法,用于生成帶有顏色和紋理的設計。
此外,這些設計既可以由人類手動裝配,也可以由機械臂自動組裝。同時,研究者公開了新的數據集 StableText2Brick,其中包含 47,000 多個積木結構、超過 28,000 個獨特的三維對象及其詳細描述文本。

該論文的方法流程如圖所示。
首先,系統將一個積木結構離散化為一串文本 token 序列,按自下而上、逐行掃描(raster-scan)的順序排列。
隨后,研究者們構建了一個指令數據集,將積木序列與相應的文本描述配對,用于對 LLaMA-3.2-Instruct-1B 進行微調。
最后在推理階段,BrickGPT 根據輸入的文本提示,逐塊預測生成積木結構。
對于每一個生成的積木,我們都會執行一系列有效性檢查,以確保該積木:
- 格式正確;
- 存在于積木庫中;
- 不與已有積木發生碰撞。
在完成整體設計后,研究者們會對其物理穩定性進行驗證。若檢測到結構不穩定,系統會回滾至最近的穩定狀態,即刪除所有不穩定的積木及其后續部分,并從該位置繼續生成。

將該論文方法與多種基線模型進行對比評估,評價指標包括:有效性(validity):是否存在超出積木庫、越界或相互碰撞的積木;穩定性(stability);基于 CLIP 的文本相似度以及基于 DINOv2 的圖像相似度。其中,穩定性、CLIP 相似度和 DINO 相似度的計算僅針對有效結構進行。對于 LLaMA-Mesh ,有效性要求其生成的 OBJ 文件格式正確。
實驗結果表明,該論文的方法在采用拒絕采樣(rejection sampling)與回滾機制(rollback)后,在有效性與穩定性上全面優于所有基線模型及其消融設置,同時仍保持較高的文本相似度。

結果展示與基線對比。該論文方法能夠根據給定的文本提示,生成高質量、多樣化且具有新穎性的積木結構。其中,黑色積木表示發生碰撞的部分。
在該研究之外,同樣來自 CMU 的論文《Spatially-Varying Autofocus》獲得了 ICCV 2025 最佳論文提名獎。

- 論文地址:https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
傳統鏡頭只能在單一平面上成像清晰;因此,位于該焦平面之外的場景部分會因離焦而模糊。那么,能否打破這一成像規律,構建一種能夠任意調整景深的「鏡頭」?
本研究探討了這種具備空間選擇性聚焦能力(spatially-selective focusing)的計算鏡頭的設計與實現。研究者采用了一種由 Lohmann 鏡頭與僅相位空間光調制器(phase-only SLM)組成的光學結構,使得每個像素都能聚焦在不同的深度平面上。在此基礎上,我們將經典的自動對焦方法擴展到空間可變聚焦場景中,通過對比度與視差線索迭代估計深度圖,從而使相機能夠逐步調整景深形狀以匹配場景深度分布。
通過這種方式,我們能夠在光學層面上直接獲得全清晰圖像。與以往研究相比,本方法在兩方面實現了突破:能夠同時使整個場景清晰成像;能夠保持最高的空間分辨率。
最佳學生論文
最佳論文獎是來自以色列理工學院(Technion)的論文《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》。

這篇論文介紹了一種名為 FlowEdit 的新型圖像編輯方法。

- 論文地址:https://arxiv.org/abs/2412.08629
- 項目主頁:https://matankleiner.github.io/flowedit/
- Code&Data:https://github.com/fallenshock/FlowEdit
- HuggingFace:https://huggingface.co/spaces/fallenshock/FlowEdit

研究者指出,使用預訓練的文本到圖像(T2I)擴散或流模型編輯真實圖像時,通常需要將圖像「反演」為其對應的噪聲圖。然而,單獨的反演往往無法很好地保留原圖的結構與細節,因此許多現有方法會在采樣過程中額外進行干預。盡管這些方法提升了效果,但卻無法在不同模型架構之間無縫遷移。
FlowEdit 創新地繞開了「圖像 → 噪聲 → 編輯后圖像」的傳統路徑。它通過構建一個常微分方程(ODE),直接在源圖像分布(由源提示詞定義)與目標圖像分布(由目標提示詞定義)之間建立了一條直接映射路徑。

這條直接路徑實現了更低的傳輸成本,這意味著在編輯過程中能夠最大程度地保留原始圖像的結構和內容,從而實現更高保真度的編輯。
研究團隊在 Stable Diffusion 3 和 FLUX 這兩個先進的 T2I 流模型上對 FlowEdit 進行了廣泛的實驗驗證。結果表明,該方法在各類復雜的編輯任務中均取得了 SOTA 效果,證明了其高效性和優越性。

此外,來自德州大學奧斯丁分校的論文《RayZer: A Self-supervised Large View Synthesis Model》獲得了最佳學生論文提名獎。

- 論文地址:https://arxiv.org/abs/2505.00702
研究人員提出了一個名為 RayZer 的自監督多視圖 3D 視覺模型。該模型最核心的特點是,它在訓練時無需任何 3D 監督信息(如相機位姿或場景幾何),便能學習并展現出涌現的 3D 感知能力。
具體而言,RayZer 能夠處理來自未標定相機、位姿未知的圖像集合,并從中恢復相機參數、重建場景的 3D 表示,以及合成全新的視角。其創新之處在于,模型在訓練過程中完全依賴自我預測的相機位姿來渲染目標視圖進行學習,從而擺脫了對真實位姿標注的依賴,僅需 2D 圖像即可完成訓練。
實驗結果表明,RayZer 在新視角合成任務上的表現,與那些在訓練和測試中都依賴精確位姿標注的 「神諭」 方法相比,性能相當甚至更優,充分證明了該方法的有效性和潛力。
其他獎項
Helmholtz Prize
測試方法獎,表彰在計算機視覺基準測試中的貢獻,該獎項有兩篇獲獎論文。
一篇是 Ross Girshick 的《Fast R-CNN》,該論文提出了一種用于目標檢測的快速區域卷積網絡 (Fast R-CNN)。該方法在前人研究基礎上,利用深度卷積網絡高效分類候選區域,并通過多項創新顯著提升了訓練、測試速度和檢測精度。

- 論文地址:https://arxiv.org/abs/1504.08083
另一篇是何愷明等人于 2015 年在 ICCV 發表的論文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》。這篇工作引入了后來被廣泛使用的 PReLU 激活函數 和 He 初始化方法,并首次在 ImageNet 上達到了「超越人類水平」的分類性能。

- 論文地址:https://arxiv.org/abs/1502.01852
Everingham Prize
嚴謹評估獎,表彰對社區有重大貢獻的研究者,該獎項有兩個獲獎團隊。
一個是人體 3D 模型 SMPL 的團隊。SMPL 是一種由人體掃描數據訓練的三維可變形人體模型,它以參數化方式精準表示人體姿態與形狀,被廣泛應用于動畫、虛擬人、動作捕捉、AR/VR 及生成式 AI 中,對計算機視覺與數字人領域的進步具有里程碑式影響。

- 項目主頁:https://smpl.is.tue.mpg.de/
另一個是 VQA 數據集團隊。VQA 數據集是一種將圖像理解與自然語言問答結合的大規模基準數據集,它推動了多模態 AI 在視覺理解、語言推理和跨模態語義對齊等方向的研究與突破。

Significant Researcher Award
該獎項旨在表彰那些其研究貢獻「顯著地推動了計算機視覺領域進展」的研究人員,頒給了 David Forsyth 和 Michal lrani。

David Forsyth 是計算機視覺領域的領軍人物,他早期提出顏色恒常性方法、形狀變化不變測量,并推動人體動作識別與追蹤技術的發展,從而在物體識別、動作分析與圖像–語言交叉研究方面產生了深遠影響。
Michal Irani 是著名計算機視覺學者,她開創了 「圖像內部自相似性」 與 「空間 - 時間視頻形狀」 研究范式,通過無監督或單樣本方法解決超分辨、盲去模糊、視頻結構分析等核心問題,從而豐富了視覺推斷與學習的理論基礎。
Azriel Rosenfeld Award
該獎項是計算機視覺領域極具榮譽的「終身成就獎」之一,專門用于表彰那些不僅在其研究生涯中取得重大成果,而且其成果在學術界與 / 或工業界都具有持續影響、推動整個領域發展的研究者,頒給了 Rama Chellappa。

Rama Chellappa 是計算機視覺與模式識別領域的先驅之一,在人臉識別、運動分析、3D 建模和生成式視覺理解等方面作出奠基性貢獻,其研究深刻影響了視覺 AI 的發展路徑與應用實踐。
































