主動調用工具的多模態智能體; 視覺空間理解能力調優;通過細化文本嵌入緩解多模態不平衡;密集動作描述
DeepEyesV2: Toward Agentic Multimodal Model
2025-11-07|Xiaohongshu Inc.|??26
??http://arxiv.org/abs/2511.05271v1???
???https://huggingface.co/papers/2511.05271???
???https://visual-agent.github.io/??
研究背景與意義

- 問題定義與現狀概述
當前多模態大模型(MLLM)雖具備較強的視覺和文本理解能力,但在主動調用外部工具(如代碼執行環境和網絡搜索)以輔助推理方面仍顯不足。現有模型大多被動接受輸入,缺少自主調用工具整合多模態信息的能力,導致在復雜推理任務中表現有限。
- 挑戰與目標闡述
實現真正的“agentic”多模態模型,需解決工具調用的魯棒性、工具與推理過程的無縫集成,以及多能力(感知、搜索、推理)協同工作等難題。本文旨在提出DeepEyesV2,通過設計合理的數據構建、訓練策略和評估體系,推動多模態模型主動調用工具的能力,提升模型在現實復雜場景下的表現。
研究方法與創新


- 技術架構與訓練策略
DeepEyesV2創新性地將代碼執行和網絡搜索作為互補工具,動態嵌入單一推理循環中,實現工具調用與推理的交互迭代。該模型首先生成推理計劃,判斷是否需要調用工具,隨后執行代碼或發起搜索,將結果反饋入模型上下文,支持多輪、多工具組合的復雜推理。
- 冷啟動與強化學習兩階段訓練
針對直接強化學習難以穩定學習工具調用的現象,設計了兩階段訓練流程:
- 冷啟動階段:構建高質量、多樣化且適度挑戰性的訓練數據,包含感知、推理和搜索任務,利用監督微調引導模型掌握基礎工具調用模式。
- 強化學習階段:在冷啟動基礎上,通過稀疏獎勵(準確性和格式正確性)進一步優化模型的工具調用效率和靈活性,避免獎勵欺騙現象,實現上下文感知的工具選擇和復雜組合。
- 數據集構建與標注創新
精心篩選和清洗訓練數據,確保問題難度適中且工具調用能顯著提升準確率。數據集涵蓋多種任務類型,并通過模型生成的多步推理軌跡增強訓練質量,確保工具調用的可執行性和推理的嚴謹性。
- 綜合評估體系設計
提出RealX-Bench基準,專門評測模型在感知、搜索和推理三大能力的協同表現。該基準覆蓋真實世界場景,問題設計兼顧挑戰性和可驗證性,填補現有多模態評測多能力整合不足的空白。
實驗設計與結果分析





- 實驗設計
- 采用Qwen2.5-VL-7B作為基礎模型,分別進行冷啟動監督微調和強化學習訓練。
- 評測覆蓋RealX-Bench及多種真實世界理解、數學推理、搜索導向任務,全面衡量模型的多能力集成。
- 對比多款開源及專有模型,驗證DeepEyesV2在工具調用和多模態推理上的優勢。
- 關鍵實驗發現
- 工具調用學習難點:直接強化學習難以穩定生成可執行代碼,模型易陷入獎勵欺騙,驗證了冷啟動階段的必要性。
- 性能提升顯著:在RealX-Bench上,DeepEyesV2在整合感知、搜索、推理的任務中表現領先,尤其在需要多能力協同的復雜任務中,準確率遠超其他模型。
- 多場景表現優異:在現實世界理解、數學推理和搜索密集型任務中均取得顯著提升,部分指標甚至超過了參數更多的基線模型。
- 任務自適應工具調用:模型根據任務類型選擇不同工具(如感知任務偏好圖像操作,推理任務偏好數值計算),強化學習階段進一步提高了工具調用的靈活性和效率。
- 統計與消融分析
- 數據集多樣性和難度過濾保障了訓練的有效性。
- 冷啟動數據對模型基礎工具調用能力至關重要,強化學習則提升了復雜場景下的適應性。
- 工具調用頻率訓練動態顯示,強化學習使模型減少不必要調用,提高推理效率。
結論與展望
- 研究貢獻總結
- 提出DeepEyesV2,實現代碼執行與網絡搜索的動態互補工具調用,推動多模態模型從被動理解向主動推理轉變。
- 構建高質量訓練數據集和兩階段訓練策略,解決了工具調用學習的穩定性和效果問題。
- 設計RealX-Bench綜合評測平臺,促進多能力協同評估,推動多模態智能研究。
- 實驗證明DeepEyesV2在多領域、多任務上均具備領先的推理和工具調用能力,表現出良好的泛化和適應性。
- 局限性分析
- 當前模型仍依賴預設工具集,工具種類和調用策略可進一步豐富和優化。
- 強化學習獎勵設計較為簡單,未來可探索更復雜和細粒度的激勵機制。
- RealX-Bench雖覆蓋多能力融合,但規模和多樣性仍有提升空間。
- 未來展望
- 拓展工具庫,支持更多類型的操作和知識檢索,增強模型的通用性和實用性。
- 深化多模態推理機制,實現更復雜的多輪交互和動態規劃。
- 推動開放社區共享訓練數據和評測平臺,促進agentic多模態模型的生態建設和技術進步。
Visual Spatial Tuning
2025-11-07|HKU, ByteDance Seed, THU|??19
??http://arxiv.org/abs/2511.05491v1???
???https://huggingface.co/papers/2511.05491???
???https://github.com/Yangr116/VST??
研究背景與意義


- 研究背景
視覺-語言模型(VLMs)在視覺問答、文檔理解和自主界面代理等領域取得了顯著進展,但普遍存在對空間關系理解不足的問題。空間理解能力是類人智能的基石,對于機器人、自主駕駛和增強現實等應用尤為關鍵。已有方法多依賴額外的專家編碼器,增加復雜度且損害模型通用性,或專注于有限的空間理解任務,未能系統提升空間認知。
- 研究意義
本研究提出了“視覺空間調優”(Visual Spatial Tuning, VST)框架,旨在系統培養VLMs的類人空間感知和推理能力,突破現有模型在多視角、多模態空間理解上的瓶頸。通過構建大規模、多樣化的空間感知(VST-P)和空間推理(VST-R)數據集,結合漸進式訓練策略,VST不僅提升了空間能力,還保持了模型的多模態通用性,推動了更具物理基礎的人工智能發展。
研究方法與創新


- 技術框架
VST框架基于現有視覺-語言模型,以“ViT-MLP-LLM”架構為基礎,通過監督微調(SFT)和強化學習(RL)兩階段訓練,分別強化空間感知和空間推理能力。訓練數據涵蓋單圖、多圖及視頻,支持從基礎空間知識到復雜推理的全流程能力培養。
- 數據創新
- VST-P數據集:包含410萬條樣本,覆蓋19項任務,融合單圖的深度估計、3D目標檢測,多圖的視角對應和相機運動,及視頻的時空關系,全面提升模型空間感知。
- VST-R數據集:13.5萬條樣本,采用鏈式思維(CoT)和規則校驗,特別引入鳥瞰圖(BEV)提示,提升多視角空間推理的準確性和連貫性。
- 訓練策略創新采用三階段訓練:
- 第一階段通過VST-P進行監督微調,奠定空間感知基礎;
- 第二階段利用VST-R的CoT數據冷啟動空間推理能力;
- 第三階段通過基于規則的獎勵函數進行強化學習,進一步提升空間推理表現。該策略模擬人類空間智能發展路徑,避免引入額外3D編碼器,簡化模型架構。
- 優勢對比
相較于依賴專家編碼器的方案,VST無需額外復雜模塊,且通過大規模多樣化數據實現空間能力的全面提升。BEV輔助生成的推理鏈條提升了多視角空間推理的質量,強化學習階段則有效優化了模型輸出的準確性和格式規范性。
實驗設計與結果分析


- 實驗設計
- 模型基線:以Qwen2.5-VL系列(3B、7B、32B參數規模)為基礎,結合VST數據集進行三階段訓練。
- 評測基準:空間理解涵蓋單圖(CVBench、3DSRBench)、多圖(BLINK、MMSI-Bench)、視頻(VSIBench)三大類,及通用多模態基準(MMStar等)驗證模型整體能力。
- 任務細分:包括3D目標檢測、空間關系推斷、相機運動分析等,采用標準指標如AP@IoU、準確率和F1分數。
- 實驗結果
- VST-7B-RL模型在空間基準上表現優異,CVBench達86.5分,MMSI-Bench達34.8%,VSIBench達61.2%,均優于多項公開和專有模型。
- 3D目標檢測任務中,VST-7B-RL達到44.2 AP@15,領先于多種專家系統和通用模型。
- 多任務細分顯示,VST在對象尺寸估計、房間大小推斷、相對方向和出現順序等細粒度空間任務中表現突出。
- 強化學習階段顯著提升空間推理能力,CoT冷啟動模型基礎上提升近9%。
- 同時,VST保持了多模態通用性,在MMBench等通用評測中成績穩健,體現了空間能力與通用能力的良好平衡。
- 消融分析
- 單圖數據中,3D目標檢測和深度數據顯著提升空間感知,場景描述和測量數據輔助模型理解空間語義。
- 多圖數據增強了多視角對應和空間關系理解,特別是多視角3D目標檢測和相機運動數據對空間推理貢獻明顯。
- 視頻數據對時空關系捕捉有積極影響,但提升幅度有限,顯示未來可進一步優化時序建模。
- 各類數據協同作用,逐步構建模型完整的空間認知體系。
結論與展望
- 總結貢獻本研究提出的VST框架通過構建大規模多樣化空間數據集與創新訓練策略,顯著提升了視覺-語言模型的空間感知與推理能力,實現了無需額外3D編碼器即可達到甚至超越專家系統的性能。實驗驗證了VST在多模態空間理解任務中的領先地位及其對下游視覺-語言-動作任務的促進作用。
- 局限分析盡管VST在空間任務上表現優異,但部分細粒度空間推理和長時序視頻理解仍存在提升空間。模型對復雜動態環境的適應性和推理連貫性需進一步增強。此外,訓練過程對大規模數據和計算資源依賴較重,限制了廣泛應用。
- 未來展望未來工作可聚焦于:
- 引入更豐富的時空動態數據,增強視頻和多視角推理能力;
- 探索輕量級空間知識注入方法,降低訓練成本;
- 融合物理常識和符號推理,提升模型空間推理的解釋性和泛化性;
- 擴展至更多實際應用場景,如機器人操作和增強現實,實現空間智能的實用化落地。
綜上,VST為視覺-語言模型的空間智能研究提供了系統且高效的解決方案,推動了類人空間認知在人工智能領域的深入發展。
Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings
2025-11-07|U Maryland, Dolby Lab, Hilabs, Capital One|??4
??http://arxiv.org/abs/2511.05017v1???
???https://huggingface.co/papers/2511.05017??
研究背景與意義

- 研究背景
大型視覺語言模型(LVLMs)通過結合視覺和語言理解,推動了多模態任務的發展,如圖像描述、視覺問答等。然而,這些模型普遍存在“幻覺”問題,即生成的文本雖流暢但與視覺輸入不符,嚴重影響其在醫療、自動駕駛等安全關鍵領域的應用。
- 問題定義
幻覺主要源于模型過度依賴語言先驗,忽視視覺信息,導致輸出內容在語義上合理但視覺上錯誤。例如,模型可能在空廚房臺面圖像中錯誤描述“水果碗”或“咖啡杯”。
- 現狀與挑戰
當前主流LVLM架構通常將視覺特征作為嵌入附加到預訓練語言模型的輸入序列中,這種簡單拼接方式引發了模態不平衡,語言模型偏向文本信息,忽視視覺線索,造成視覺信息利用不足和幻覺頻發。
- 研究目標
本文旨在系統分析這一模態不平衡問題,提出一種通過細化文本嵌入以融合視覺信息的方法,促進視覺與語言的均衡注意力分布,從根本上減少幻覺現象,提高模型的視覺推理能力和輸出的真實性。
研究方法與創新

- 技術描述
基于Video-LLaVA模型,作者提出VisAlign方法:首先對視覺嵌入進行平均池化,生成視覺語義向量;然后將該向量與文本嵌入在token級別拼接,通過線性投影映射回語言模型嵌入空間,形成視覺增強的文本嵌入序列;最后將該序列與視覺嵌入及剩余文本嵌入拼接輸入LLM。
- 創新點
- 模態融合層面創新:突破傳統簡單拼接視覺與文本嵌入的方式,通過視覺信息直接注入文本嵌入,促進跨模態信息的深度融合。
- 注意力均衡機制:通過視覺增強的文本嵌入引導模型在自注意力層面更均衡地關注視覺與語言信息,有效緩解語言模型對文本的偏好。
- 結構簡潔高效:無須復雜的跨模態交叉注意力機制或額外監督,保持模型架構的模塊化和訓練效率。
- 理論基礎與優勢
該方法基于Transformer自注意力機制中token間交互的原理,視覺信息的融合使得文本token在計算注意力時包含視覺上下文,提升視覺信息的權重,增強視覺-語言對齊。相比傳統方法,VisAlign能更好地協調視覺與語言模態,減少幻覺產生的根因。
- 與現有方法對比
與Flamingo、BLIP-2等復雜跨模態注意力模型相比,VisAlign保持了簡潔性和高效性;相比僅靠后期校正或推理時策略的幻覺緩解方法,VisAlign從輸入表示層面主動預防幻覺,具有更強的通用性和穩定性。
實驗設計與結果分析



- 實驗設計
- 基線模型:采用Video-LLaVA,廣泛認可的多模態基線。
- 訓練策略:包括凍結視覺編碼器的預訓練階段和全模型微調階段,確保視覺與文本嵌入的有效融合。
- 評測基準:覆蓋多種幻覺類型的權威數據集,如MMVP-MLLM(細粒度視覺辨析)、POPE-AOKVQA(對象級幻覺)、MERLIN(事實一致性)、Mementos(時序視覺推理)、HallusionBench(參數記憶影響)等。
- 結果分析
- 注意力分布改善:VisAlign顯著改善了Transformer層中視覺與文本token的注意力分布,視覺token獲得更均衡且持續的關注,促進跨模態信息有效融合。
- 幻覺減少表現:在MMVP-MLLM上提升9.33%準確率,POPE-AOKVQA上提升2.99%準確率及1.76%精確率,MERLIN和Mementos等多項指標均有顯著提升。
- 多場景適用性:不僅在結構化場景(機器人領域)表現優異,在復雜、抽象的漫畫和日常生活場景也有一定提升,顯示方法的廣泛適用性。
- 定性示例:在區分相似視覺對象、拒絕不存在物體、識別視覺與世界知識沖突等任務中,VisAlign模型輸出更準確,減少了語言偏見引發的幻覺。
- 統計顯著性
所有提升均通過多基準、多指標驗證,且在硬樣本集(如HallusionBench難度組)中表現尤為突出,證明方法的魯棒性和泛化能力。
結論與展望
- 研究貢獻總結
本文系統揭示了當前LVLMs幻覺產生的模態不平衡根源,提出VisAlign方法通過視覺信息細化文本嵌入,促進視覺與語言的均衡注意力分布,顯著降低幻覺發生率。實驗結果覆蓋多個權威基準,充分驗證了方法的有效性與普適性。
- 局限性分析
當前方法采用視覺嵌入的平均池化作為融合策略,雖簡潔高效,但可能忽略視覺信息的空間結構和細節差異,限制了更復雜場景下的表現提升。部分復雜、抽象視覺場景中改進幅度有限,提示視覺編碼和融合策略仍有優化空間。
- 未來研究方向
- 探索更精細的視覺-文本融合機制,如基于注意力的動態融合、多尺度視覺特征整合等。
- 結合更強大的視覺編碼器和多模態預訓練策略,進一步提升視覺信息的表達能力。
- 擴展方法至更多模態(如音頻、觸覺)和復雜任務,提升多模態模型的泛化與魯棒性。
- 研究模型在實際應用中的安全性和可靠性,推動LVLMs在醫療、自動駕駛等關鍵領域的安全部署。
綜上,VisAlign為解決LVLM幻覺問題提供了理論與實踐上的重要突破,期待其激發更多創新,推動多模態人工智能向更可靠、更精準的方向發展。
Dense Motion Captioning
2025-11-07|UniTn, LIGM|3DV 2026|??3
??http://arxiv.org/abs/2511.05369v1???
???https://huggingface.co/papers/2511.05369???
???https://xusy2333.com/demo??
研究背景與意義

當前3D人體動作與自然語言的結合研究主要集中在文本驅動的動作生成任務上,而對動作序列的理解和精準描述尚處于初期階段。傳統數據集多為短動作片段,缺乏復雜動作序列的細致時間注釋,限制了模型對復雜連續動作的理解能力。針對這一不足,本文提出了密集動作描述(Dense Motion Captioning, DMC)任務,旨在對復雜的3D人體動作序列進行精確的時間定位和詳細的語言描述。為支持該任務,作者構建了CompMo數據集,包含6萬條長時序、多動作的3D動作序列,配備準確的時間戳和豐富的自然語言注釋。這不僅填補了現有數據集在動作時序復雜性和規模上的空白,也為3D動作理解領域樹立了新的研究基準。
研究方法與創新


本文創新性地提出了DEMO模型,一種結合大型語言模型(LLM)與輕量級動作適配器的架構,用于生成密集且時間對齊的動作描述。DEMO采用兩階段訓練策略:第一階段通過HumanML3D數據集對動作與語言進行對齊,訓練動作適配器以將3D動作編碼映射至語言模型的嵌入空間;第二階段則在CompMo數據集上進行指令調優,使模型能夠生成包含動作邊界和時間戳的詳細描述。與傳統基于離散動作詞匯的編碼方法不同,DEMO直接學習連續動作特征映射,避免了信息丟失和額外訓練步驟,提升了對復雜動作的表達能力。此外,采用滑動窗口機制處理長序列,提高了計算效率和時序定位精度。這種設計有效融合了語言模型的強大生成能力和動作數據的時序特征,實現了復雜3D動作的細粒度時空描述。
實驗設計與結果分析



實驗在CompMo及HumanML3D與BABEL交集數據集上展開,采用多維度指標評估密集描述的準確性、時序定位的精度及動作-文本的語義對齊度。結果顯示,DEMO顯著優于現有基線UniMotion,尤其在復雜動作序列上表現出色,時序IoU提升20%以上,描述質量指標如CIDEr和METEOR提升顯著。消融實驗驗證了多階段訓練和連續動作編碼的關鍵作用,數據生成策略中的混合去噪方法也顯著提升了模型性能。定性分析進一步表明,DEMO能夠準確分割動作單元,生成與真實注釋高度一致且語言表達自然流暢的描述,克服了基線模型在長序列中易出現的噪聲和描述不準確問題。
結論與展望
本文開創性地提出了密集動作描述任務及相應的大規模復雜動作數據集CompMo,推動了3D人體動作理解向細粒度、時序精確的方向發展。DEMO模型通過創新的連續動作編碼和兩階段訓練策略,實現了對復雜動作序列的高質量語言描述。未來工作可進一步擴展到動作的時空結構建模,增強動作間因果關系和連貫性的理解;同時,可探索結合視覺信息和多模態數據,提升模型對自然人類行為的綜合感知與解釋能力。此外,豐富動作語義層次及多樣化應用場景的適配也為后續研究提供了廣闊空間。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















