歐幾里得的禮物:通過幾何代理任務增強視覺-語言模型中的空間感知和推理能力
本文共同第一作者為華中科技大學博士生連仕杰與華東師范大學博士生鄔長倜,二者同時也是北京中關村學院2024級學生。共同通訊作者包括:鄭州大學學術副校長,鄭州大學/華中科技大學教授,加拿大工程院/歐洲科學院院士楊天若教授;北京中關村學院&中關村人工智能研究院具身方向負責人陳凱。
近年來,多模態大語言模型(MLLMs)在廣泛的視覺-語言任務中取得了顯著成功。盡管如此,最先進的 MLLMs 仍然缺乏真正的空間智能。甚至如今,最先進的視覺-語言模型(VLMs)在一些兒童輕易就能完成的任務上仍會出現偶爾錯誤,例如數方塊或識別給定物體左側最近的鄰近物體。

圖 1,讓 GPT5-Thinking 和 Gemini 2.5 Pro 數方塊(正確答案是白色 10 塊,橙色 13 塊)
在李飛飛提出的 VSIBench 評估基準中顯示,超過 70% 的記錄錯誤源于模型對空間現象的推理錯誤,而非視覺識別或語言解析能力的不足。這一現象與著名的「莫拉維克悖論」一致,即對于 VLM 而言,有可能高層次推理任務在計算上比低層次的感知和感覺運動技能更簡單。
近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等關于空間感知 VLM 的研究,嘗試通過提供專門構建的空間數據集來提升模型性能。然而,這些空間數據集中的任務通常僅涵蓋現實世界空間任務的一個子集,可能無法增強模型的整體空間智能。這凸顯了實現空間智能的一個關鍵挑戰:
盡管在特定空間任務數據集上進行微調可以實現高模型域內的性能,但可能導致模型過度特化,難以培養更基礎且可泛化的空間智能。
為了打破這一僵局,來自華中科技大學、北京中關村學院和華東師范大學的研究團隊將目光轉向從更廣泛且更基礎的空間現象中學習,從而突破單一數據集的局限,擴展模型的能力范圍。

- 論文標題:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
- 論文地址:https://zgca-ai4edu.github.io/Euclids_Gift/
具體來說,為了培養模型在任何單一基準之外發展泛化的空間能力,他們嘗試探索一種新穎的訓練范式,將解決幾何問題作為在 VLMs 中提升空間智能的代理任務。

幾何將數個世紀的數學研究濃縮為對空間現象的形式化描述。因此,學習求解平面與立體幾何問題迫使模型內化歐幾里得幾何公理等先驗知識,并為模型提供更強的跨領域泛化能力,因為這些原理具有普適性且獨立于任何單一任務。
為什么選擇「幾何問題」作為空間智能的代理任務?
實際上,解決幾何問題所需的能力,包括識別形狀與構型、推斷空間關系(如平行、角度和相對位置)、計算或測量幾何元素,以及執行多步邏輯推理,同樣也是空間感知任務所必需的。
此外,教育心理學領域有大量現存證據表明,幾何問題求解與空間智力密切相關,可以作為空間能力的有力指標,并且可以通過有針對性的練習加以提升 [1] [2] [3]。 本文通過大量實驗進一步發現,這種關系不僅適用于人類學習者,也可推廣至多模態大模型。
制作更豐富的、以幾何為中心的訓練集
遺憾的是,目前尚無針對多樣化幾何問題的大規模高質量訓練數據集。此外,現存數據集中顯著的不平衡性:立體幾何題遠少于平面幾何題。然而,立體幾何包含了更多明確的三維空間現象(例如視角不變性、多面體截斷特征、體積與面積關系等),這些對 VLM 學習空間知識同樣至關重要。
為此,本文從現有開源數據集與 K12 階段的教程/練習冊中重新收集數據,標注了一個具有 29,695 個幾何問題的幾何數據集——Euclid30K。Euclid30K 中的所有題目與答案都通過 GPT-4o 與 DeepSeek-V3.1 API 的混合清洗,以確保答案被重規范化為可以被 MathVerify 正確識別的格式。


驗證
為了讓訓練得到的性能收益全部來自于幾何數據集,而非精心設計的算法或其他 trick。本文只使用了常規的 GRPO 對模型進行訓練。并參考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度損失以及動態采樣。
結果顯示,經過幾何問題訓練后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 這四個基準上的性能都出現了一定程度的增長。體現了使用幾何問題作為代理任務這空間智能上的 zero-shot 泛化能力。

為了進一步確保模型的性能提升來自于可以明確歸因于幾何任務作為空間智能的有效代理任務,而非 GRPO 算法或數據量增加的影響。本文進行了一項因果消融研究。
具體而言,本文在非幾何的空間智能數據集 Clevr-CoGenT 上隨機采樣了一個與 Euclid30K 大小相等的樣本,并使用完全相同的 GRPO 設置來訓練 Qwen2.5VL 和 RoboBrain2.0。結果表明,在 Euclid30K 上訓練的模型相比在同等大小的 Clevr-CoGenT 數據集上微調的模型,整體準確率顯著更高。






































