北大團隊讓AI學會考古!全球首個古希臘陶罐3D視覺問答數據集發布,還配了專用模型
現在AI都懂文物懂歷史了。
一項來自北京大學的最新研究引發關注:他們推出了全球首個面向古希臘陶罐的3D視覺問答數據集——VaseVQA-3D,并配套推出了專用視覺語言模型VaseVLM。
這意味著,AI正在從“識圖機器”邁向“文化考古Agent”。

傳統視覺語言模型(VLM)如GPT-4V、Gemini等,擅長描述日常圖像,在開放域視覺理解方面效果顯著,但在面對文化遺產類復雜對象時——它們幾乎“一臉茫然”。受限于訓練數據的領域覆蓋和語義建模能力,其對復雜紋飾、器形及文化背景的理解仍存在明顯不足。
為什么?因為缺乏高質量、結構化的專業數據。
此次,北大牽頭團隊帶來了突破性解決方案。
AI首次“看懂”古希臘陶罐
以往的視覺語言模型(VLM)如CLIP、LLaVA、GPT-4V等,雖然能識別日常圖片,卻在文化遺產這類專業領域失靈。
北大團隊指出:“AI能認貓狗,卻認不出陶罐的時代、風格與技法。”
于是他們構建了一個龐大的新基座VaseVQA-3D。
△VaseVQA-3D中的陶罐3D模型與問答示例:每個模型都能被AI“旋轉、觀察、回答”
從現有資源里找了3萬多張古希臘陶器的2D照片,先通過:
- ResNet-50質檢:去掉模糊與殘缺圖像;
- CLIP語義過濾:識別“碎片”與“完整器物”;
- 多視角選優:自動挑選最佳視角圖像。三道篩選,留下3880張高質量的;

再用TripoSG技術把這些2D圖轉成664個高保真的GLB模型(像真的陶器一樣能看前后上下);
最后還通過GPT-4o生成問答與增強描述,配了4460組「問題-答案」(比如 “這個陶器的制作工藝是什么?”“是黑繪工藝”),甚至給每個3D模型寫了詳細說明。

為了保證3D模型質量,專門挑了24個高質量3D陶器當標準樣板,用來檢驗生成的3D模型好不好。
總結下來就是:
- 664個高保真3D古希臘陶罐模型(GLB格式)
- 4460條考古問答數據
- 完整的2D→3D生成與質檢流程
- 涵蓋陶罐六大核心屬性:材質、工藝、形制、年代、裝飾、歸屬
VaseVLM:懂考古的視覺語言大模型
有了數據,團隊進一步訓練了專用模型 VaseVLM。
以Qwen2.5-VL為基底,通過兩階段強化:
- 階段一:SFT監督微調 —— 用360°旋轉視頻+考古描述訓練基礎識別能力
- 階段二:RLVR強化學習 —— 將考古知識拆分為六個語義維度(Fabric、Technique、Shape、Dating、Decoration、Attribution),AI會每個維度根據回答得到獎勵。
這種“可驗證獎勵機制”讓模型的回答更專業、更貼近學術標準。
△RLVR獎勵機制:AI像考古學家一樣分維度分析陶罐特征
在多項Vase-3D視覺問答任務上,VaseVLM的表現大幅超越現有模型。相比最強基線模型,VaseVLM在R@1準確率提升12.8%;詞匯相似度提升 6.6%;專家人工評分平均達4.57/5(10位考古專家評分)。
VaseVLM生成的描述更自然、學術準確,顯著優于通用大模型。

未來,該項目計劃拓展到更多文化遺產領域,并建立更完善的數字遺產展示形式,為數字考古提供全新技術路徑。
論文原文:https://arxiv.org/abs/2510.04479
官方網站: https://aigeeksgroup.github.io/VaseVQA-3D
代碼開源: https://github.com/AIGeeksGroup/VaseVQA-3D
數據集:https://huggingface.co/datasets/AIGeeksGroup/VaseVQA-3D






































