長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn)；無(wú)需蒸餾的VLM文檔裝好框架；Keye-VL 1.5技術(shù)報(bào)告，動(dòng)態(tài)分配計(jì)算資源

發(fā)布于 2025-9-5 00:17

瀏覽

0收藏

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

2025-08-29｜SenseTime|??51

??http://arxiv.org/abs/2508.21496v2???
???https://huggingface.co/papers/2508.21496???
???https://github.com/hlsv02/ELV-Halluc??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn)；無(wú)需蒸餾的VLM文檔裝好框架；Keye-VL 1.5技術(shù)報(bào)告，動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

研究背景視頻多模態(tài)大型語(yǔ)言模型（Video-MLLMs）在視頻理解領(lǐng)域取得了顯著進(jìn)展，但仍存在“幻覺(jué)”問(wèn)題，即生成與視頻內(nèi)容不一致或無(wú)關(guān)的信息。現(xiàn)有研究多聚焦于短視頻的幻覺(jué)，歸因于語(yǔ)言先驗(yàn)、幀缺失或視覺(jué)編碼器的偏差。長(zhǎng)視頻由于包含多事件、多語(yǔ)義層次，幻覺(jué)問(wèn)題更為復(fù)雜，尤其存在一種被忽視的“語(yǔ)義聚合幻覺(jué)”（Semantic Aggregation Hallucination，SAH），即模型在將幀級(jí)語(yǔ)義聚合成事件級(jí)語(yǔ)義時(shí)發(fā)生錯(cuò)誤。
研究意義針對(duì)SAH的系統(tǒng)性研究尚缺乏，ELV-Halluc作為首個(gè)專注長(zhǎng)視頻SAH的基準(zhǔn)，填補(bǔ)了該領(lǐng)域的空白。通過(guò)精細(xì)劃分事件、構(gòu)建對(duì)抗性問(wèn)答對(duì)，ELV-Halluc不僅揭示了SAH與視頻語(yǔ)義復(fù)雜度和語(yǔ)義變化率的正相關(guān)關(guān)系，還為后續(xù)模型優(yōu)化提供了明確的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)支持，推動(dòng)了長(zhǎng)視頻理解的可靠性提升。

研究方法與創(chuàng)新

技術(shù)描述該研究設(shè)計(jì)了基于事件的視頻語(yǔ)義分割，通過(guò)半自動(dòng)化流程結(jié)合Gemini-2.5模型生成初始字幕，并由人工校正形成高質(zhì)量事件級(jí)標(biāo)注。構(gòu)建了包含8K對(duì)問(wèn)答的對(duì)抗性數(shù)據(jù)集，通過(guò)“視頻內(nèi)”和“視頻外”兩類幻覺(jué)問(wèn)答對(duì)區(qū)分模型對(duì)語(yǔ)義錯(cuò)配的敏感度，提出SAH比例指標(biāo)衡量模型的語(yǔ)義聚合幻覺(jué)程度。
創(chuàng)新點(diǎn)突出

專注長(zhǎng)視頻SAH：首次系統(tǒng)定義并量化長(zhǎng)視頻中因語(yǔ)義聚合錯(cuò)誤導(dǎo)致的幻覺(jué)問(wèn)題。
事件分割與對(duì)抗問(wèn)答設(shè)計(jì)：通過(guò)事件劃分降低語(yǔ)義單元復(fù)雜度，同時(shí)設(shè)計(jì)對(duì)抗性問(wèn)答對(duì)，精準(zhǔn)捕捉模型在事件間語(yǔ)義錯(cuò)配的表現(xiàn)。
引入多種RoPE位置編碼策略和DPO優(yōu)化：驗(yàn)證了VideoRoPE位置編碼和基于直接偏好優(yōu)化（DPO）策略在減少SAH方面的有效性，創(chuàng)新性地結(jié)合了注意力機(jī)制分析，揭示了模型內(nèi)部語(yǔ)義聚合機(jī)制的改進(jìn)路徑。

理論基礎(chǔ)討論研究基于視覺(jué)語(yǔ)言模型的多模態(tài)理解理論，強(qiáng)調(diào)事件級(jí)語(yǔ)義聚合的復(fù)雜性及其對(duì)模型可靠性的影響。DPO方法借鑒強(qiáng)化學(xué)習(xí)中的偏好優(yōu)化，調(diào)整模型對(duì)正確語(yǔ)義的關(guān)注度，理論上減少了因錯(cuò)誤語(yǔ)義聚合引發(fā)的幻覺(jué)。
與現(xiàn)有方法對(duì)比相較于傳統(tǒng)短視頻幻覺(jué)研究，ELV-Halluc更全面考慮了長(zhǎng)視頻多事件、多層次語(yǔ)義的挑戰(zhàn)。它不僅在數(shù)據(jù)規(guī)模和復(fù)雜度上超越現(xiàn)有基準(zhǔn)，還提出了更細(xì)粒度的幻覺(jué)分類和評(píng)估指標(biāo)，顯著提升了幻覺(jué)診斷的精確度和針對(duì)性。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

實(shí)驗(yàn)設(shè)計(jì)

評(píng)測(cè)了14個(gè)開(kāi)源模型（參數(shù)規(guī)模1B-78B）及2個(gè)閉源模型（GPT-4o與Gemini 2.5 Flash），覆蓋不同架構(gòu)和規(guī)模。
采用ELV-Halluc數(shù)據(jù)集，比較模型在“視頻內(nèi)”和“視頻外”幻覺(jué)問(wèn)答對(duì)上的表現(xiàn)，計(jì)算整體準(zhǔn)確率和SAH比例。
探索不同幀采樣數(shù)量、模型大小、語(yǔ)義類型（視覺(jué)細(xì)節(jié)、動(dòng)作、對(duì)象、聲明性內(nèi)容）對(duì)幻覺(jué)的影響。
針對(duì)RoPE編碼策略和DPO方法進(jìn)行消融實(shí)驗(yàn)，分析其對(duì)SAH的緩解效果。

結(jié)果分析

SAH普遍存在且隨語(yǔ)義復(fù)雜度增加而加劇，特別是在視覺(jué)細(xì)節(jié)和動(dòng)作變化頻繁的語(yǔ)義層面；聲明性內(nèi)容中SAH較少。
幀數(shù)增加帶來(lái)更多語(yǔ)義信息，整體幻覺(jué)率下降，但SAH比例上升，說(shuō)明更多幀信息增加了語(yǔ)義聚合的難度。
模型規(guī)模與整體幻覺(jué)率負(fù)相關(guān)，但對(duì)SAH比例影響不顯著，表明僅擴(kuò)大模型容量難以根治SAH。
VideoRoPE位置編碼顯著降低了SAH比例，優(yōu)于傳統(tǒng)RoPE變體，表明更強(qiáng)的位置感知能力有助于正確語(yǔ)義聚合。
DPO優(yōu)化通過(guò)強(qiáng)化模型對(duì)正確事件語(yǔ)義的偏好，顯著降低SAH比例（最高減少27.7%），并通過(guò)注意力權(quán)重分析驗(yàn)證了模型對(duì)錯(cuò)誤語(yǔ)義區(qū)域關(guān)注度的下降。
結(jié)合“視頻內(nèi)”和“視頻外”訓(xùn)練樣本的DPO策略在保持整體性能的同時(shí)，實(shí)現(xiàn)了對(duì)SAH的有效控制。

結(jié)論與展望

總結(jié)貢獻(xiàn)本研究首次系統(tǒng)定義并量化了長(zhǎng)視頻理解中的語(yǔ)義聚合幻覺(jué)問(wèn)題，構(gòu)建了高質(zhì)量的ELV-Halluc基準(zhǔn)數(shù)據(jù)集，設(shè)計(jì)了創(chuàng)新的事件級(jí)對(duì)抗問(wèn)答評(píng)價(jià)體系。通過(guò)實(shí)證分析揭示了SAH與語(yǔ)義復(fù)雜度、變化率的關(guān)系，提出了基于位置編碼優(yōu)化和DPO訓(xùn)練的有效緩解策略，顯著提升了長(zhǎng)視頻多模態(tài)語(yǔ)言模型的可靠性和理解準(zhǔn)確度。
局限性分析

數(shù)據(jù)集規(guī)模受限于高昂的人工標(biāo)注成本，可能影響模型泛化能力。
初始字幕依賴Gemini-2.5模型，存在潛在偏差，影響部分評(píng)測(cè)結(jié)果的客觀性。
事件劃分雖提升了語(yǔ)義控制，但與真實(shí)長(zhǎng)視頻的多樣性和復(fù)雜性仍有差距。
DPO方法的長(zhǎng)期效果及其在更大規(guī)模、多樣化數(shù)據(jù)上的表現(xiàn)尚待驗(yàn)證。

方法展望未來(lái)研究可探索更大規(guī)模、多樣化的長(zhǎng)視頻數(shù)據(jù)集，結(jié)合更先進(jìn)的自動(dòng)注釋技術(shù)減少人工成本。進(jìn)一步優(yōu)化位置編碼機(jī)制和語(yǔ)義聚合策略，提升模型對(duì)復(fù)雜事件間關(guān)系的理解。結(jié)合強(qiáng)化學(xué)習(xí)和對(duì)抗訓(xùn)練，增強(qiáng)模型對(duì)語(yǔ)義錯(cuò)配的魯棒性。最后，拓展SAH的評(píng)估指標(biāo)體系，涵蓋更多實(shí)用場(chǎng)景，推動(dòng)長(zhǎng)視頻理解模型向更高的可靠性和實(shí)用性邁進(jìn)。

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

2025-09-01｜Tencent, SJTU, THU｜EMNLP 2025|??39

??http://arxiv.org/abs/2509.01215v1???
???https://huggingface.co/papers/2509.01215???
???https://github.com/Tencent/POINTS-Reader??

研究背景與意義

文檔轉(zhuǎn)換，尤其是包含復(fù)雜元素如表格、數(shù)學(xué)公式和多欄文本的文檔轉(zhuǎn)換，一直是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理領(lǐng)域的難題。傳統(tǒng)方法依賴于大量人工標(biāo)注或通過(guò)蒸餾大型模型的知識(shí)來(lái)訓(xùn)練學(xué)生模型，但這些方法成本高昂且難以保證標(biāo)注質(zhì)量，蒸餾過(guò)程還可能繼承教師模型的偏差和不足，限制了模型的真實(shí)表現(xiàn)。鑒于此，本文提出了一種無(wú)需蒸餾的全自動(dòng)化框架，旨在構(gòu)建大規(guī)模高質(zhì)量的文檔轉(zhuǎn)換數(shù)據(jù)集，并訓(xùn)練能夠處理多樣化文檔格式的視覺(jué)語(yǔ)言模型。該研究不僅解決了數(shù)據(jù)標(biāo)注的瓶頸問(wèn)題，也為端到端文檔理解模型的開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ)，推動(dòng)了文檔轉(zhuǎn)換技術(shù)向更高準(zhǔn)確性和泛化能力的方向發(fā)展。

研究方法與創(chuàng)新

本文方法創(chuàng)新地采用了兩階段策略：

統(tǒng)一格式預(yù)熱階段（Uniform Format Warm-up Stage）

通過(guò)設(shè)計(jì)統(tǒng)一的輸出格式，標(biāo)準(zhǔn)化文檔中的純文本、表格和數(shù)學(xué)公式的表達(dá)，消除了多樣格式帶來(lái)的學(xué)習(xí)復(fù)雜度。
利用大語(yǔ)言模型生成多樣化的文本內(nèi)容，結(jié)合HTML模板渲染成圖像，形成大規(guī)模合成圖文對(duì)，用于模型的初步訓(xùn)練。
該階段通過(guò)精細(xì)的規(guī)則過(guò)濾表格和公式，確保數(shù)據(jù)結(jié)構(gòu)的合理性和語(yǔ)法正確性，為模型提供高質(zhì)量的訓(xùn)練樣本。

迭代自我提升階段（Iterative Self-improvement Stage）

利用預(yù)熱階段訓(xùn)練得到的模型對(duì)真實(shí)文檔進(jìn)行自動(dòng)標(biāo)注，針對(duì)生成文本中的遺漏、幻覺(jué)和結(jié)構(gòu)錯(cuò)誤，設(shè)計(jì)了多種基于規(guī)則的過(guò)濾策略，包括基于OCR的F1分?jǐn)?shù)過(guò)濾文本、表格結(jié)構(gòu)有效性檢測(cè)和公式語(yǔ)法校驗(yàn)。
通過(guò)多輪迭代，模型不斷用經(jīng)過(guò)嚴(yán)格篩選的真實(shí)數(shù)據(jù)進(jìn)行再訓(xùn)練，逐步提升對(duì)現(xiàn)實(shí)復(fù)雜布局文檔的理解和轉(zhuǎn)換能力。
此策略突破了傳統(tǒng)依賴外部模型蒸餾的瓶頸，實(shí)現(xiàn)了數(shù)據(jù)和模型的協(xié)同進(jìn)化，顯著提升了模型的泛化性能。

相較于現(xiàn)有依賴蒸餾的端到端方法，本文框架避免了性能瓶頸和偏差繼承，且自我提升機(jī)制有效利用了真實(shí)數(shù)據(jù)，提升了模型的實(shí)用性和準(zhǔn)確度。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

合成數(shù)據(jù)涵蓋四類文檔結(jié)構(gòu)：純文本、含數(shù)學(xué)公式的文本、含表格的文本和多欄含表格布局，每類生成20萬(wàn)樣本。

真實(shí)數(shù)據(jù)選用DocMatix大規(guī)模文檔圖像集，涵蓋學(xué)術(shù)論文及多種文檔類型。

訓(xùn)練基于POINTS-1.5視覺(jué)語(yǔ)言模型，結(jié)合Qwen2.5-3B大語(yǔ)言模型進(jìn)行文本生成與指令調(diào)優(yōu)。

結(jié)果分析

數(shù)據(jù)多樣性顯著提升模型性能，尤其是加入多欄布局?jǐn)?shù)據(jù)后，模型在閱讀順序和表格識(shí)別上獲得明顯提升。

過(guò)濾異常圖像長(zhǎng)寬比（2到5范圍內(nèi)）和文本F1分?jǐn)?shù)（閾值0.9）有效提升了訓(xùn)練數(shù)據(jù)質(zhì)量，避免了模型過(guò)擬合非真實(shí)分布的合成數(shù)據(jù)。

自我提升階段多輪迭代中，模型性能持續(xù)穩(wěn)定提升，F(xiàn)1分?jǐn)?shù)與傳統(tǒng)OCR輸出的匹配度逐步增強(qiáng)，數(shù)據(jù)質(zhì)量和數(shù)量同步增長(zhǎng)，驗(yàn)證了迭代機(jī)制的有效性。

在多個(gè)公開(kāi)基準(zhǔn)（OmniDocBench、Fox等）上，POINTS-Reader模型在文本、表格及公式識(shí)別任務(wù)中均超越了包括Qwen2.5-VL-72B等大型通用視覺(jué)語(yǔ)言模型及多款專業(yè)OCR模型，尤其在表格識(shí)別指標(biāo)上優(yōu)勢(shì)明顯。

結(jié)論與展望

本文提出的無(wú)蒸餾端到端文檔轉(zhuǎn)換框架，通過(guò)統(tǒng)一格式預(yù)熱和迭代自我提升兩階段策略，成功構(gòu)建了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)，顯著提升了模型對(duì)復(fù)雜文檔元素的識(shí)別和轉(zhuǎn)換能力。該方法有效規(guī)避了傳統(tǒng)蒸餾依賴的局限，實(shí)現(xiàn)了模型性能的持續(xù)迭代優(yōu)化，達(dá)到了當(dāng)前先進(jìn)水平。

未來(lái)工作將聚焦于：

多語(yǔ)言擴(kuò)展，突破當(dāng)前僅支持英文的限制，提升對(duì)中文、日文等語(yǔ)言的適應(yīng)能力；
手寫(xiě)文本識(shí)別，針對(duì)手寫(xiě)筆記等非印刷字體的識(shí)別精度進(jìn)行優(yōu)化；
豐富文檔元素支持，包括圖像識(shí)別與定位，進(jìn)一步完善文檔內(nèi)容的全面理解與轉(zhuǎn)換；
數(shù)據(jù)多樣性拓展，引入更多復(fù)雜布局和真實(shí)場(chǎng)景，增強(qiáng)模型泛化能力和魯棒性。

整體而言，該研究為文檔視覺(jué)語(yǔ)言模型的訓(xùn)練與應(yīng)用開(kāi)辟了新路徑，具有重要的理論價(jià)值和廣泛的應(yīng)用前景。

Kwai Keye-VL 1.5 Technical Report

2025-09-01｜KuaishouGroup|??26

??http://arxiv.org/abs/2509.01563v1???
???https://huggingface.co/papers/2509.01563???
???https://github.com/Kwai-Keye/Keye??

研究背景與意義

背景概述：近年來(lái)，大型語(yǔ)言模型（LLMs）迅速發(fā)展，推動(dòng)了多模態(tài)大型語(yǔ)言模型（MLLMs）的興起，使得模型在視覺(jué)和語(yǔ)言的結(jié)合上具備了強(qiáng)大的理解與生成能力。然而，視頻理解因其動(dòng)態(tài)性和信息密集性，仍是一個(gè)難點(diǎn)，尤其在空間分辨率與時(shí)間覆蓋范圍之間存在權(quán)衡。
現(xiàn)有挑戰(zhàn)：現(xiàn)有模型多采用固定分辨率和統(tǒng)一幀采樣策略，難以兼顧細(xì)粒度視覺(jué)細(xì)節(jié)和時(shí)間一致性，導(dǎo)致視頻內(nèi)容理解效果不佳。
研究目標(biāo)：提出Keye-VL-1.5模型，通過(guò)架構(gòu)創(chuàng)新、漸進(jìn)式預(yù)訓(xùn)練和全面的后訓(xùn)練策略，提升視頻理解能力，同時(shí)保持在通用視覺(jué)語(yǔ)言任務(wù)中的競(jìng)爭(zhēng)力，解決視頻理解中的核心難題。

研究方法與創(chuàng)新

架構(gòu)創(chuàng)新：Slow-Fast視頻編碼策略

動(dòng)態(tài)分配計(jì)算資源，根據(jù)幀間相似度劃分關(guān)鍵幀（Slow路徑，高分辨率）和靜態(tài)幀（Fast路徑，低分辨率但高時(shí)間覆蓋）。

通過(guò)補(bǔ)丁相似度函數(shù)識(shí)別幀類型，平衡空間細(xì)節(jié)與時(shí)間跨度，避免傳統(tǒng)固定采樣的缺陷。

漸進(jìn)式四階段預(yù)訓(xùn)練

階段一凍結(jié)視覺(jué)和語(yǔ)言模型，僅訓(xùn)練投影層，實(shí)現(xiàn)跨模態(tài)對(duì)齊。

階段二解凍所有參數(shù)，進(jìn)行多任務(wù)預(yù)訓(xùn)練，涵蓋圖像描述、OCR、視覺(jué)問(wèn)答等，強(qiáng)化視覺(jué)理解。

階段三退火階段，細(xì)化模型對(duì)高質(zhì)量樣本的理解。

階段四擴(kuò)展上下文長(zhǎng)度，從8K tokens提升至128K，支持更長(zhǎng)視頻和復(fù)雜視覺(jué)內(nèi)容處理，同時(shí)采用模型融合提升魯棒性。

后訓(xùn)練策略：推理能力與人類偏好對(duì)齊

設(shè)計(jì)五步鏈?zhǔn)剿季S（Chain-of-Thought）數(shù)據(jù)構(gòu)建流程，生成高質(zhì)量冷啟動(dòng)推理數(shù)據(jù)。

應(yīng)用基于GSPO的可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)，結(jié)合漸進(jìn)式提示采樣處理難題，迭代提升模型推理表現(xiàn)。

進(jìn)行對(duì)齊強(qiáng)化學(xué)習(xí)，改善指令遵循、響應(yīng)格式和偏好匹配，確保模型輸出符合人類期望。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

數(shù)據(jù)構(gòu)建與多樣性

訓(xùn)練數(shù)據(jù)超過(guò)1萬(wàn)億tokens，涵蓋圖像描述、OCR、視覺(jué)問(wèn)答、目標(biāo)定位、計(jì)數(shù)、視頻理解等多模態(tài)任務(wù)，融合公開(kāi)數(shù)據(jù)與高質(zhì)量?jī)?nèi)部數(shù)據(jù)。

特別設(shè)計(jì)視頻數(shù)據(jù)管道，包括幀級(jí)OCR、視頻重排序、多視頻匹配等任務(wù)，強(qiáng)化時(shí)間和語(yǔ)義理解。