拋棄分類,擁抱檢索:多模態關系抽取新范式ROC,刷新SOTA
作者:一度
多模態關系抽取旨在從文本和圖像中聯合推斷實體間的語義關系。傳統方法多基于分類范式,將多模態特征融合后映射到離散的關系標簽空間。
一、研究背景與問題陳述
多模態關系抽取旨在從文本和圖像中聯合推斷實體間的語義關系。傳統方法多基于分類范式,將多模態特征融合后映射到離散的關系標簽空間。這種范式存在兩個核心問題:
- 忽略結構化約束:未建模實體類型、位置等先驗信息,導致模型需在大量無關實體對中搜索關系,增加推理難度。
- 語義表達能力不足:離散標簽無法捕捉細粒度語義差異,導致相似關系易混淆(如將“夫妻”誤判為“同事”)。
二、核心創新:ROC框架
論文提出檢索優于分類的新范式,將多模態關系抽取重構為基于關系語義的檢索任務,核心組件包括:
- 多模態實體對編碼器:
- 引入實體類型(通過Stanford NER提取)和位置信息作為顯式語義提示,約束候選關系空間。
- 使用BERT和ViT分別編碼文本和圖像特征,通過Transformer層進行跨模態融合,生成實體對的聯合表示。
- 實體位置信息用于定位主體和客體,構建中心化表示。
- 關系語義編碼器:
- 利用GPT-4o將關系標簽擴展為自然語言描述(如“位于”描述為“某實體物理位置處于另一實體所在地”),經人工校驗后通過獨立BERT編碼為語義向量。
- 替代離散標簽,增強模型對細微語義差異的區分能力。
- 對比語義檢索策略:
- 基于SimCLR思想,在共享語義空間中最大化正樣本(實體對與對應關系描述)的余弦相似度,最小化與負樣本的相似度。
- 損失函數采用對比學習形式,使模型通過語義匹配而非分類得分進行關系預測。

三、實驗結果與分析
1. 主流數據集性能
- MNRE數據集:ROC在召回率(90.85%)和F1分數(91.22%)上達到最優,顯著優于傳統分類模型(如CAMRE的F1為90.94%),證明其能更全面捕捉正樣本語義。
- MORE數據集:ROC在F1分數(71.97%)上領先第二名APOLLO 2.95個百分點,尤其在召回率(75.40%)上提升顯著,表明其對復雜跨模態關系的強泛化能力。
2. 消融實驗
- 移除實體類型:MNRE和MORE的F1分別下降1.96和3.4點,驗證類型信息對約束關系空間的關鍵作用。
- 移除關系語義編碼器(退化為分類模型):F1在MORE上暴跌7.61點,凸顯自然語言描述對細粒度語義建模的必要性。
- 移除位置編碼:召回率下降明顯,表明位置信息對區分實體對結構至關重要。
3. 多模態必要性分析
- MNRE數據集的文本主導性強,移除圖像后性能影響較小;而MORE依賴視覺信息,移除圖像后F1下降顯著,證明ROC在多模態對齊任務中的有效性。
4. 與多模態大模型對比
- 相比微調后的BLIP2、InstructBLIP等模型,ROC在F1分數上保持領先(如MNRE上91.22% vs. Qwen-VL的90.62%),且無需大量計算資源,凸顯輕量化優勢。
- 未經微調的DeepSeek-V3性能遠低于ROC,說明當前大模型需任務特定適配才能處理結構化抽取任務。
圖片
四、技術細節與深入分析
- 視覺編碼器選擇:ViT優于ResNet系列(F1在MORE上高3.65點),因Transformer架構與文本編碼器一致,利于跨模態對齊。
- 編碼器深度影響:深層編碼器(6層)在MORE上提升顯著(F1+4.55點),但在文本-圖像對齊較弱的MNRE上,3層結構更優,說明需根據數據特性調整深度。
- 注意力可視化:深層注意力更聚焦實體關鍵詞(如“crocodile”和“south”),表明模型從全局語義逐漸收斂到局部關系推理。
圖片
五、結論與意義
- 范式突破:ROC通過檢索范式替代分類,解決了標簽剛性化和結構約束缺失兩大痛點。
- 性能優勢:在多個基準上達到SOTA,尤其在高語義復雜度場景(如MORE)表現突出。
- 可解釋性:自然語言描述和注意力機制增強了模型決策的透明度。
六、局限性
- 未系統評估LLM生成描述在其它分類任務中的泛化能力。
- 多模態大模型的潛力(如GPT-4o)在關系抽取中的系統性優化尚未充分探索。
責任編輯:武曉燕
來源:
AIGC深一度





































