精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源

發(fā)布于 2025-9-5 00:17
瀏覽
0收藏

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

2025-08-29|SenseTime|??51

??http://arxiv.org/abs/2508.21496v2???
???https://huggingface.co/papers/2508.21496???
???https://github.com/hlsv02/ELV-Halluc??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 研究背景視頻多模態(tài)大型語(yǔ)言模型(Video-MLLMs)在視頻理解領(lǐng)域取得了顯著進(jìn)展,但仍存在“幻覺(jué)”問(wèn)題,即生成與視頻內(nèi)容不一致或無(wú)關(guān)的信息。現(xiàn)有研究多聚焦于短視頻的幻覺(jué),歸因于語(yǔ)言先驗(yàn)、幀缺失或視覺(jué)編碼器的偏差。長(zhǎng)視頻由于包含多事件、多語(yǔ)義層次,幻覺(jué)問(wèn)題更為復(fù)雜,尤其存在一種被忽視的“語(yǔ)義聚合幻覺(jué)”(Semantic Aggregation Hallucination,SAH),即模型在將幀級(jí)語(yǔ)義聚合成事件級(jí)語(yǔ)義時(shí)發(fā)生錯(cuò)誤。
  2. 研究意義針對(duì)SAH的系統(tǒng)性研究尚缺乏,ELV-Halluc作為首個(gè)專注長(zhǎng)視頻SAH的基準(zhǔn),填補(bǔ)了該領(lǐng)域的空白。通過(guò)精細(xì)劃分事件、構(gòu)建對(duì)抗性問(wèn)答對(duì),ELV-Halluc不僅揭示了SAH與視頻語(yǔ)義復(fù)雜度和語(yǔ)義變化率的正相關(guān)關(guān)系,還為后續(xù)模型優(yōu)化提供了明確的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)支持,推動(dòng)了長(zhǎng)視頻理解的可靠性提升。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 技術(shù)描述該研究設(shè)計(jì)了基于事件的視頻語(yǔ)義分割,通過(guò)半自動(dòng)化流程結(jié)合Gemini-2.5模型生成初始字幕,并由人工校正形成高質(zhì)量事件級(jí)標(biāo)注。構(gòu)建了包含8K對(duì)問(wèn)答的對(duì)抗性數(shù)據(jù)集,通過(guò)“視頻內(nèi)”和“視頻外”兩類幻覺(jué)問(wèn)答對(duì)區(qū)分模型對(duì)語(yǔ)義錯(cuò)配的敏感度,提出SAH比例指標(biāo)衡量模型的語(yǔ)義聚合幻覺(jué)程度。
  2. 創(chuàng)新點(diǎn)突出
  • 專注長(zhǎng)視頻SAH:首次系統(tǒng)定義并量化長(zhǎng)視頻中因語(yǔ)義聚合錯(cuò)誤導(dǎo)致的幻覺(jué)問(wèn)題。
  • 事件分割與對(duì)抗問(wèn)答設(shè)計(jì):通過(guò)事件劃分降低語(yǔ)義單元復(fù)雜度,同時(shí)設(shè)計(jì)對(duì)抗性問(wèn)答對(duì),精準(zhǔn)捕捉模型在事件間語(yǔ)義錯(cuò)配的表現(xiàn)。
  • 引入多種RoPE位置編碼策略和DPO優(yōu)化:驗(yàn)證了VideoRoPE位置編碼和基于直接偏好優(yōu)化(DPO)策略在減少SAH方面的有效性,創(chuàng)新性地結(jié)合了注意力機(jī)制分析,揭示了模型內(nèi)部語(yǔ)義聚合機(jī)制的改進(jìn)路徑。
  1. 理論基礎(chǔ)討論研究基于視覺(jué)語(yǔ)言模型的多模態(tài)理解理論,強(qiáng)調(diào)事件級(jí)語(yǔ)義聚合的復(fù)雜性及其對(duì)模型可靠性的影響。DPO方法借鑒強(qiáng)化學(xué)習(xí)中的偏好優(yōu)化,調(diào)整模型對(duì)正確語(yǔ)義的關(guān)注度,理論上減少了因錯(cuò)誤語(yǔ)義聚合引發(fā)的幻覺(jué)。
  2. 與現(xiàn)有方法對(duì)比相較于傳統(tǒng)短視頻幻覺(jué)研究,ELV-Halluc更全面考慮了長(zhǎng)視頻多事件、多層次語(yǔ)義的挑戰(zhàn)。它不僅在數(shù)據(jù)規(guī)模和復(fù)雜度上超越現(xiàn)有基準(zhǔn),還提出了更細(xì)粒度的幻覺(jué)分類和評(píng)估指標(biāo),顯著提升了幻覺(jué)診斷的精確度和針對(duì)性。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 實(shí)驗(yàn)設(shè)計(jì)
  • 評(píng)測(cè)了14個(gè)開(kāi)源模型(參數(shù)規(guī)模1B-78B)及2個(gè)閉源模型(GPT-4o與Gemini 2.5 Flash),覆蓋不同架構(gòu)和規(guī)模。
  • 采用ELV-Halluc數(shù)據(jù)集,比較模型在“視頻內(nèi)”和“視頻外”幻覺(jué)問(wèn)答對(duì)上的表現(xiàn),計(jì)算整體準(zhǔn)確率和SAH比例。
  • 探索不同幀采樣數(shù)量、模型大小、語(yǔ)義類型(視覺(jué)細(xì)節(jié)、動(dòng)作、對(duì)象、聲明性內(nèi)容)對(duì)幻覺(jué)的影響。
  • 針對(duì)RoPE編碼策略和DPO方法進(jìn)行消融實(shí)驗(yàn),分析其對(duì)SAH的緩解效果。
  1. 結(jié)果分析
  • SAH普遍存在且隨語(yǔ)義復(fù)雜度增加而加劇,特別是在視覺(jué)細(xì)節(jié)和動(dòng)作變化頻繁的語(yǔ)義層面;聲明性內(nèi)容中SAH較少。
  • 幀數(shù)增加帶來(lái)更多語(yǔ)義信息,整體幻覺(jué)率下降,但SAH比例上升,說(shuō)明更多幀信息增加了語(yǔ)義聚合的難度。
  • 模型規(guī)模與整體幻覺(jué)率負(fù)相關(guān),但對(duì)SAH比例影響不顯著,表明僅擴(kuò)大模型容量難以根治SAH。
  • VideoRoPE位置編碼顯著降低了SAH比例,優(yōu)于傳統(tǒng)RoPE變體,表明更強(qiáng)的位置感知能力有助于正確語(yǔ)義聚合。
  • DPO優(yōu)化通過(guò)強(qiáng)化模型對(duì)正確事件語(yǔ)義的偏好,顯著降低SAH比例(最高減少27.7%),并通過(guò)注意力權(quán)重分析驗(yàn)證了模型對(duì)錯(cuò)誤語(yǔ)義區(qū)域關(guān)注度的下降。
  • 結(jié)合“視頻內(nèi)”和“視頻外”訓(xùn)練樣本的DPO策略在保持整體性能的同時(shí),實(shí)現(xiàn)了對(duì)SAH的有效控制。

結(jié)論與展望

  1. 總結(jié)貢獻(xiàn)本研究首次系統(tǒng)定義并量化了長(zhǎng)視頻理解中的語(yǔ)義聚合幻覺(jué)問(wèn)題,構(gòu)建了高質(zhì)量的ELV-Halluc基準(zhǔn)數(shù)據(jù)集,設(shè)計(jì)了創(chuàng)新的事件級(jí)對(duì)抗問(wèn)答評(píng)價(jià)體系。通過(guò)實(shí)證分析揭示了SAH與語(yǔ)義復(fù)雜度、變化率的關(guān)系,提出了基于位置編碼優(yōu)化和DPO訓(xùn)練的有效緩解策略,顯著提升了長(zhǎng)視頻多模態(tài)語(yǔ)言模型的可靠性和理解準(zhǔn)確度。
  2. 局限性分析
  • 數(shù)據(jù)集規(guī)模受限于高昂的人工標(biāo)注成本,可能影響模型泛化能力。
  • 初始字幕依賴Gemini-2.5模型,存在潛在偏差,影響部分評(píng)測(cè)結(jié)果的客觀性。
  • 事件劃分雖提升了語(yǔ)義控制,但與真實(shí)長(zhǎng)視頻的多樣性和復(fù)雜性仍有差距。
  • DPO方法的長(zhǎng)期效果及其在更大規(guī)模、多樣化數(shù)據(jù)上的表現(xiàn)尚待驗(yàn)證。
  1. 方法展望未來(lái)研究可探索更大規(guī)模、多樣化的長(zhǎng)視頻數(shù)據(jù)集,結(jié)合更先進(jìn)的自動(dòng)注釋技術(shù)減少人工成本。進(jìn)一步優(yōu)化位置編碼機(jī)制和語(yǔ)義聚合策略,提升模型對(duì)復(fù)雜事件間關(guān)系的理解。結(jié)合強(qiáng)化學(xué)習(xí)和對(duì)抗訓(xùn)練,增強(qiáng)模型對(duì)語(yǔ)義錯(cuò)配的魯棒性。最后,拓展SAH的評(píng)估指標(biāo)體系,涵蓋更多實(shí)用場(chǎng)景,推動(dòng)長(zhǎng)視頻理解模型向更高的可靠性和實(shí)用性邁進(jìn)。

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

2025-09-01|Tencent, SJTU, THU|EMNLP 2025|??39

??http://arxiv.org/abs/2509.01215v1???
???https://huggingface.co/papers/2509.01215???
???https://github.com/Tencent/POINTS-Reader??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

文檔轉(zhuǎn)換,尤其是包含復(fù)雜元素如表格、數(shù)學(xué)公式和多欄文本的文檔轉(zhuǎn)換,一直是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理領(lǐng)域的難題。傳統(tǒng)方法依賴于大量人工標(biāo)注或通過(guò)蒸餾大型模型的知識(shí)來(lái)訓(xùn)練學(xué)生模型,但這些方法成本高昂且難以保證標(biāo)注質(zhì)量,蒸餾過(guò)程還可能繼承教師模型的偏差和不足,限制了模型的真實(shí)表現(xiàn)。鑒于此,本文提出了一種無(wú)需蒸餾的全自動(dòng)化框架,旨在構(gòu)建大規(guī)模高質(zhì)量的文檔轉(zhuǎn)換數(shù)據(jù)集,并訓(xùn)練能夠處理多樣化文檔格式的視覺(jué)語(yǔ)言模型。該研究不僅解決了數(shù)據(jù)標(biāo)注的瓶頸問(wèn)題,也為端到端文檔理解模型的開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ),推動(dòng)了文檔轉(zhuǎn)換技術(shù)向更高準(zhǔn)確性和泛化能力的方向發(fā)展。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

本文方法創(chuàng)新地采用了兩階段策略:

  1. 統(tǒng)一格式預(yù)熱階段(Uniform Format Warm-up Stage)
  • 通過(guò)設(shè)計(jì)統(tǒng)一的輸出格式,標(biāo)準(zhǔn)化文檔中的純文本、表格和數(shù)學(xué)公式的表達(dá),消除了多樣格式帶來(lái)的學(xué)習(xí)復(fù)雜度。
  • 利用大語(yǔ)言模型生成多樣化的文本內(nèi)容,結(jié)合HTML模板渲染成圖像,形成大規(guī)模合成圖文對(duì),用于模型的初步訓(xùn)練。
  • 該階段通過(guò)精細(xì)的規(guī)則過(guò)濾表格和公式,確保數(shù)據(jù)結(jié)構(gòu)的合理性和語(yǔ)法正確性,為模型提供高質(zhì)量的訓(xùn)練樣本。
  1. 迭代自我提升階段(Iterative Self-improvement Stage)
  • 利用預(yù)熱階段訓(xùn)練得到的模型對(duì)真實(shí)文檔進(jìn)行自動(dòng)標(biāo)注,針對(duì)生成文本中的遺漏、幻覺(jué)和結(jié)構(gòu)錯(cuò)誤,設(shè)計(jì)了多種基于規(guī)則的過(guò)濾策略,包括基于OCR的F1分?jǐn)?shù)過(guò)濾文本、表格結(jié)構(gòu)有效性檢測(cè)和公式語(yǔ)法校驗(yàn)。
  • 通過(guò)多輪迭代,模型不斷用經(jīng)過(guò)嚴(yán)格篩選的真實(shí)數(shù)據(jù)進(jìn)行再訓(xùn)練,逐步提升對(duì)現(xiàn)實(shí)復(fù)雜布局文檔的理解和轉(zhuǎn)換能力。
  • 此策略突破了傳統(tǒng)依賴外部模型蒸餾的瓶頸,實(shí)現(xiàn)了數(shù)據(jù)和模型的協(xié)同進(jìn)化,顯著提升了模型的泛化性能。

相較于現(xiàn)有依賴蒸餾的端到端方法,本文框架避免了性能瓶頸和偏差繼承,且自我提升機(jī)制有效利用了真實(shí)數(shù)據(jù),提升了模型的實(shí)用性和準(zhǔn)確度。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

合成數(shù)據(jù)涵蓋四類文檔結(jié)構(gòu):純文本、含數(shù)學(xué)公式的文本、含表格的文本和多欄含表格布局,每類生成20萬(wàn)樣本。

真實(shí)數(shù)據(jù)選用DocMatix大規(guī)模文檔圖像集,涵蓋學(xué)術(shù)論文及多種文檔類型。

訓(xùn)練基于POINTS-1.5視覺(jué)語(yǔ)言模型,結(jié)合Qwen2.5-3B大語(yǔ)言模型進(jìn)行文本生成與指令調(diào)優(yōu)。

  • 結(jié)果分析

數(shù)據(jù)多樣性顯著提升模型性能,尤其是加入多欄布局?jǐn)?shù)據(jù)后,模型在閱讀順序和表格識(shí)別上獲得明顯提升。

過(guò)濾異常圖像長(zhǎng)寬比(2到5范圍內(nèi))和文本F1分?jǐn)?shù)(閾值0.9)有效提升了訓(xùn)練數(shù)據(jù)質(zhì)量,避免了模型過(guò)擬合非真實(shí)分布的合成數(shù)據(jù)。

自我提升階段多輪迭代中,模型性能持續(xù)穩(wěn)定提升,F(xiàn)1分?jǐn)?shù)與傳統(tǒng)OCR輸出的匹配度逐步增強(qiáng),數(shù)據(jù)質(zhì)量和數(shù)量同步增長(zhǎng),驗(yàn)證了迭代機(jī)制的有效性。

在多個(gè)公開(kāi)基準(zhǔn)(OmniDocBench、Fox等)上,POINTS-Reader模型在文本、表格及公式識(shí)別任務(wù)中均超越了包括Qwen2.5-VL-72B等大型通用視覺(jué)語(yǔ)言模型及多款專業(yè)OCR模型,尤其在表格識(shí)別指標(biāo)上優(yōu)勢(shì)明顯。

結(jié)論與展望

本文提出的無(wú)蒸餾端到端文檔轉(zhuǎn)換框架,通過(guò)統(tǒng)一格式預(yù)熱和迭代自我提升兩階段策略,成功構(gòu)建了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù),顯著提升了模型對(duì)復(fù)雜文檔元素的識(shí)別和轉(zhuǎn)換能力。該方法有效規(guī)避了傳統(tǒng)蒸餾依賴的局限,實(shí)現(xiàn)了模型性能的持續(xù)迭代優(yōu)化,達(dá)到了當(dāng)前先進(jìn)水平。

未來(lái)工作將聚焦于:

  • 多語(yǔ)言擴(kuò)展,突破當(dāng)前僅支持英文的限制,提升對(duì)中文、日文等語(yǔ)言的適應(yīng)能力;
  • 手寫(xiě)文本識(shí)別,針對(duì)手寫(xiě)筆記等非印刷字體的識(shí)別精度進(jìn)行優(yōu)化;
  • 豐富文檔元素支持,包括圖像識(shí)別與定位,進(jìn)一步完善文檔內(nèi)容的全面理解與轉(zhuǎn)換;
  • 數(shù)據(jù)多樣性拓展,引入更多復(fù)雜布局和真實(shí)場(chǎng)景,增強(qiáng)模型泛化能力和魯棒性。

整體而言,該研究為文檔視覺(jué)語(yǔ)言模型的訓(xùn)練與應(yīng)用開(kāi)辟了新路徑,具有重要的理論價(jià)值和廣泛的應(yīng)用前景。

Kwai Keye-VL 1.5 Technical Report

2025-09-01|KuaishouGroup|??26

??http://arxiv.org/abs/2509.01563v1???
???https://huggingface.co/papers/2509.01563???
???https://github.com/Kwai-Keye/Keye??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 背景概述:近年來(lái),大型語(yǔ)言模型(LLMs)迅速發(fā)展,推動(dòng)了多模態(tài)大型語(yǔ)言模型(MLLMs)的興起,使得模型在視覺(jué)和語(yǔ)言的結(jié)合上具備了強(qiáng)大的理解與生成能力。然而,視頻理解因其動(dòng)態(tài)性和信息密集性,仍是一個(gè)難點(diǎn),尤其在空間分辨率與時(shí)間覆蓋范圍之間存在權(quán)衡。
  • 現(xiàn)有挑戰(zhàn):現(xiàn)有模型多采用固定分辨率和統(tǒng)一幀采樣策略,難以兼顧細(xì)粒度視覺(jué)細(xì)節(jié)和時(shí)間一致性,導(dǎo)致視頻內(nèi)容理解效果不佳。
  • 研究目標(biāo):提出Keye-VL-1.5模型,通過(guò)架構(gòu)創(chuàng)新、漸進(jìn)式預(yù)訓(xùn)練和全面的后訓(xùn)練策略,提升視頻理解能力,同時(shí)保持在通用視覺(jué)語(yǔ)言任務(wù)中的競(jìng)爭(zhēng)力,解決視頻理解中的核心難題。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 架構(gòu)創(chuàng)新:Slow-Fast視頻編碼策略

動(dòng)態(tài)分配計(jì)算資源,根據(jù)幀間相似度劃分關(guān)鍵幀(Slow路徑,高分辨率)和靜態(tài)幀(Fast路徑,低分辨率但高時(shí)間覆蓋)。

通過(guò)補(bǔ)丁相似度函數(shù)識(shí)別幀類型,平衡空間細(xì)節(jié)與時(shí)間跨度,避免傳統(tǒng)固定采樣的缺陷。

  • 漸進(jìn)式四階段預(yù)訓(xùn)練

階段一凍結(jié)視覺(jué)和語(yǔ)言模型,僅訓(xùn)練投影層,實(shí)現(xiàn)跨模態(tài)對(duì)齊。

階段二解凍所有參數(shù),進(jìn)行多任務(wù)預(yù)訓(xùn)練,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答等,強(qiáng)化視覺(jué)理解。

階段三退火階段,細(xì)化模型對(duì)高質(zhì)量樣本的理解。

階段四擴(kuò)展上下文長(zhǎng)度,從8K tokens提升至128K,支持更長(zhǎng)視頻和復(fù)雜視覺(jué)內(nèi)容處理,同時(shí)采用模型融合提升魯棒性。

  • 后訓(xùn)練策略:推理能力與人類偏好對(duì)齊

設(shè)計(jì)五步鏈?zhǔn)剿季S(Chain-of-Thought)數(shù)據(jù)構(gòu)建流程,生成高質(zhì)量冷啟動(dòng)推理數(shù)據(jù)。

應(yīng)用基于GSPO的可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),結(jié)合漸進(jìn)式提示采樣處理難題,迭代提升模型推理表現(xiàn)。

進(jìn)行對(duì)齊強(qiáng)化學(xué)習(xí),改善指令遵循、響應(yīng)格式和偏好匹配,確保模型輸出符合人類期望。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 數(shù)據(jù)構(gòu)建與多樣性

訓(xùn)練數(shù)據(jù)超過(guò)1萬(wàn)億tokens,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答、目標(biāo)定位、計(jì)數(shù)、視頻理解等多模態(tài)任務(wù),融合公開(kāi)數(shù)據(jù)與高質(zhì)量?jī)?nèi)部數(shù)據(jù)。

特別設(shè)計(jì)視頻數(shù)據(jù)管道,包括幀級(jí)OCR、視頻重排序、多視頻匹配等任務(wù),強(qiáng)化時(shí)間和語(yǔ)義理解。

  • 評(píng)價(jià)指標(biāo)與基準(zhǔn)測(cè)試

在公開(kāi)視頻理解基準(zhǔn)上,Keye-VL-1.5相較同規(guī)模模型表現(xiàn)顯著提升,尤其在視頻中心任務(wù)上表現(xiàn)領(lǐng)先。

內(nèi)部評(píng)測(cè)結(jié)合人工評(píng)估,驗(yàn)證模型在理解深度、推理準(zhǔn)確性和人類偏好對(duì)齊方面的優(yōu)勢(shì)。

  • 消融實(shí)驗(yàn)

分析不同訓(xùn)練階段(SFT、MPO、LongCoTColdStart)對(duì)性能的貢獻(xiàn)。

驗(yàn)證專家模型和模型合并策略的有效性。

強(qiáng)化學(xué)習(xí)階段的部分解決方案和拒絕采樣機(jī)制對(duì)模型表現(xiàn)的影響。

結(jié)論與展望

  • 研究貢獻(xiàn)總結(jié)

Keye-VL-1.5通過(guò)創(chuàng)新的視頻編碼策略和漸進(jìn)式訓(xùn)練,成功突破了視頻理解中的空間與時(shí)間權(quán)衡難題。

后訓(xùn)練階段系統(tǒng)提升了模型的推理能力和人類偏好對(duì)齊,確保輸出的實(shí)用性和可靠性。

實(shí)驗(yàn)結(jié)果表明模型在視頻理解和通用視覺(jué)語(yǔ)言任務(wù)中均取得了領(lǐng)先水平。

  • 局限分析

模型參數(shù)量為80億,雖在性能上表現(xiàn)優(yōu)異,但仍存在進(jìn)一步擴(kuò)展和優(yōu)化空間。

訓(xùn)練和推理資源消耗較大,實(shí)際部署需考慮效率與成本平衡。

  • 未來(lái)展望

探索更高效的動(dòng)態(tài)幀處理和編碼機(jī)制,進(jìn)一步提升長(zhǎng)視頻理解能力。

加強(qiáng)多模態(tài)跨任務(wù)遷移與泛化能力,支持更多實(shí)際應(yīng)用場(chǎng)景。

深化人機(jī)交互中的偏好學(xué)習(xí),提升模型對(duì)復(fù)雜指令和多輪對(duì)話的適應(yīng)性。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇


已于2025-9-5 00:17:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    91美女在线观看| 亚洲精品激情| 日韩一二三区视频| 999在线观看视频| 青青青草原在线| 毛片av一区二区| 久久久久久久久亚洲| 91网站免费视频| 精品国模一区二区三区欧美| 欧美日韩黄色大片| 永久久久久久| 日韩中文字幕综合| 久久91精品久久久久久秒播| 午夜精品久久久久久99热软件 | 中文字幕乱码中文乱码51精品| 国产午夜一区二区三区| 5g国产欧美日韩视频| 国产性生活视频| 欧美日韩调教| www.xxxx精品| free性中国hd国语露脸| 久久天堂久久| 在线观看亚洲专区| 全黄性性激高免费视频| 免费大片黄在线| 国产无人区一区二区三区| 国产精品v欧美精品v日韩精品| 伊人网站在线观看| 亚洲免费网址| 欧美激情久久久久久| 人妻互换一区二区激情偷拍| 任你躁在线精品免费| 宅男噜噜噜66一区二区66| 国内外免费激情视频| 国产污视频在线播放| 一区二区三区在线观看欧美| 亚洲一区bb| 国产福利第一视频在线播放| 91香蕉视频黄| 国产在线精品日韩| 精品国产999久久久免费| 免费不卡在线观看| 日本亚洲欧美成人| 日本道在线观看| 99精品视频网| 91成人国产在线观看| 久久久久久久福利| 欧美日韩中文| 欧美成人午夜激情| 午夜成人亚洲理伦片在线观看| 精品国产一区二区三区小蝌蚪| 日韩精品免费综合视频在线播放 | 久久99国产综合精品女同| 青青青视频在线播放| 欧美艳星介绍134位艳星| 亚洲视频在线看| 日韩丰满少妇无码内射| 久久91成人| 伊人伊成久久人综合网小说| 少妇人妻好深好紧精品无码| 国产伦精品一区二区三区千人斩| 亚洲男人天堂古典| 免费观看av网站| 综合亚洲色图| 国产小视频国产精品| 亚洲精品91在线| 欧美日韩国产一区二区三区不卡| 国产亚洲一级高清| 99自拍偷拍视频| 亚洲第一偷拍| 久久免费高清视频| 国产精品美女久久久久av爽| 久久亚洲欧美| 国产日韩在线观看av| 91在线视频国产| 国产高清亚洲一区| 国产视频不卡| 国产尤物视频在线| 中文字幕一区二区5566日韩| 四虎精品欧美一区二区免费| 99爱在线视频| 在线观看日产精品| 午夜诱惑痒痒网| 风间由美性色一区二区三区四区 | 亚洲午夜在线| 欧美在线播放视频| 国产情侣呻吟对白高潮| 国产麻豆精品视频| 久久99久久99精品蜜柚传媒| 国产午夜精品一区理论片| 亚洲日本在线看| 国产一区二区网| 国产亚洲人成a在线v网站 | 亚洲mv在线观看| www.日日操| 久久gogo国模啪啪裸体| 日韩成人中文字幕在线观看| 欧洲av一区二区三区| 久久精品亚洲人成影院| 97久久久久久| 97久久人国产精品婷婷| 成人精品国产一区二区4080| 日韩一区二区三区高清| 午夜成年人在线免费视频| 日韩欧美在线观看| 日本55丰满熟妇厨房伦| 国产欧美高清视频在线| 欧美高跟鞋交xxxxxhd| 国产精品久久久久久久久久精爆| 国产一区欧美日韩| 欧美人与性禽动交精品| 呦呦在线视频| 欧美日韩你懂得| 国产国语性生话播放| 欧美aⅴ99久久黑人专区| 欧美在线欧美在线| 亚洲不卡免费视频| 中文字幕精品一区二区精品绿巨人| 美女黄色免费看| 日韩电影免费观看高清完整版在线观看| 亚洲а∨天堂久久精品喷水| 欧美a级片免费看| 久久国产精品久久久久久电车| www.成人av.com| 久久bbxx| 欧美日韩一区二区三区高清 | 羞羞色国产精品网站| 欧美精品在线免费| 一区二区视频在线免费观看| 久久视频一区二区| 亚洲精品无码国产| 久久三级中文| 美女久久久久久久| 一级黄色片在线播放| 久久精品一区二区三区不卡| 黄页免费在线观看视频| 一区二区在线视频观看| 久久国产精彩视频| 国产尤物视频在线观看| 国产三级一区二区| 国产精品丝袜久久久久久消防器材| 亚洲精品不卡在线观看| 九九久久综合网站| 国产精品自拍电影| 亚洲欧洲精品一区二区三区| 9久久婷婷国产综合精品性色| 伊人精品一区| 热99精品只有里视频精品| 涩爱av在线播放一区二区| 午夜av电影一区| 女同性恋一区二区三区| 亚洲国产综合在线看不卡| 成人欧美视频在线| h片精品在线观看| 亚洲爱爱爱爱爱| 国产成人愉拍精品久久| 99精品欧美一区二区蜜桃免费 | 日韩欧美一区二区在线观看 | 亚洲一区二区三区sesese| 日本高清视频在线观看| 欧美肥妇毛茸茸| www欧美com| 国产精品亚洲成人| 搞av.com| 女人丝袜激情亚洲| 国产精品国产三级国产aⅴ9色| 免费看男男www网站入口在线| 91久久国产最好的精华液| 波多野结衣一二三四区| 免费视频一区二区| 黄色一级视频播放| 99a精品视频在线观看| 91av在线影院| 国产美女视频一区二区三区| 欧美日韩精品一区二区三区蜜桃 | 一本一本大道香蕉久在线精品| 中文字幕高清视频| 捆绑变态av一区二区三区| 四虎精品欧美一区二区免费| 久久成人福利| 国产精品久久久久久久7电影| 一区二区三区视频网站| 91麻豆精品91久久久久同性| 韩国av免费观看| 久久亚洲影视婷婷| 国产三级精品三级在线| 亚洲国产一区二区三区a毛片| 欧美日本亚洲| 欧美经典一区| 欧美在线观看一区二区三区| 免费大片在线观看www| 亚洲第一偷拍网| 亚洲精品毛片一区二区三区| 亚洲精品ww久久久久久p站| 久久午夜夜伦鲁鲁片| 韩国成人在线视频| 免费观看日韩毛片| 天天综合亚洲| 麻豆精品传媒视频| 国内精品视频| 国产成人精品av在线| 欧美xxxx黑人又粗又长| 尤物99国产成人精品视频| 国产77777| 欧美疯狂性受xxxxx喷水图片| 久久一区二区三区视频| 亚洲三级电影网站| www亚洲色图| 99久久精品免费精品国产| 亚洲人视频在线| 国产精品呻吟| 91亚洲精品国产| 国产一区二区三区四区五区传媒| 成人片在线免费看| 在线免费观看亚洲| 国产成人av在线播放| 欧美人与性动交α欧美精品济南到| 亚洲性生活视频| 婷婷五月综合激情| 欧美日韩一区小说| 久久精品视频2| 狠狠色狠狠色综合日日小说| 欧美日韩精品在线观看视频| 中文字幕一区日韩精品欧美| 老熟妇一区二区| 91免费精品国自产拍在线不卡| 精品人妻人人做人人爽夜夜爽| 卡一卡二国产精品| 好男人www社区| 三级在线观看一区二区| 久久久久久久久久久99| 欧美黄污视频| 国产成人生活片| 91蜜臀精品国产自偷在线| 日韩av在线电影观看| 青青视频一区二区| 国产精品视频免费一区二区三区 | 日韩一区二区免费视频| 91丨porny丨在线中文| 欧美中文字幕一区| 精品国产乱子伦| 色94色欧美sute亚洲线路二| 影音先锋亚洲天堂| 精品欧美激情精品一区| 日本少妇性生活| 偷窥国产亚洲免费视频| 91在线看视频| 欧美日韩亚洲高清| 国产精品视频久久久久久久| 欧美日韩国产激情| 国产无遮挡呻吟娇喘视频| 日韩欧美在线视频| 亚洲天堂男人av| 欧美中文字幕一区二区三区亚洲| 国产第一页在线观看| 在线观看欧美黄色| 伊人免费在线观看高清版| 欧美人体做爰大胆视频| 波多野结衣视频在线观看| 欧美午夜精品久久久久久超碰| 亚洲大尺度在线观看| 欧美日韩一区二区三区不卡| 91丨九色丨丰满| 精品日韩在线一区| 神马午夜电影一区二区三区在线观看| 欧美成人性战久久| 午夜福利理论片在线观看| 亚洲久久久久久久久久| 国产福利小视频在线观看| 中文字幕日韩在线播放| 蜜桃av在线免费观看| 欧美刺激性大交免费视频| 91九色美女在线视频| 热re91久久精品国99热蜜臀| 欧美色网在线| 91九色综合久久| eeuss鲁片一区二区三区| 国产成人精品一区二区三区福利 | 欧美日韩卡一| 亚洲伊人一本大道中文字幕| 国语一区二区三区| 鲁丝一区二区三区免费| 色喇叭免费久久综合网| 国产 欧美 日本| 亚洲中字黄色| 一级做a免费视频| av不卡一区二区三区| 九一在线免费观看| 亚洲最新视频在线播放| 亚洲精品男人的天堂| 欧美夫妻性生活| 人人九九精品| 久久福利网址导航| 黄色成人免费网| 91在线观看免费网站| 日韩伦理一区二区三区| 天天综合中文字幕| 99精品免费视频| 在线视频观看一区二区| 97国产一区二区| 激情综合五月网| 欧美午夜精品理论片a级按摩| 人人妻人人澡人人爽人人欧美一区 | 亚洲美女福利视频| 亚洲热线99精品视频| 黄色美女视频在线观看| 国产日韩欧美电影在线观看| 日本成人7777| 蜜臀av性久久久久蜜臀av| 日韩精品三区四区| 熟妇高潮一区二区| 亚洲免费观看高清完整| 黄色av一级片| 亚洲精品ady| 成人在线观看亚洲| 国产精品久久不能| 女仆av观看一区| 青青青在线观看视频| 极品美女销魂一区二区三区免费 | 亚洲av无码一区二区三区性色| 伊人久久久久久久久久久久久| 美女扒开腿让男人桶爽久久软| 亚洲一区二区三区视频| 操欧美老女人| 免费日韩中文字幕| av男人天堂一区| 久草精品视频在线观看| 69久久夜色精品国产69蝌蚪网| av国产在线观看| 国产精品男女猛烈高潮激情| 蜜桃一区二区| 男人天堂999| 97se狠狠狠综合亚洲狠狠| 国产一级在线观看视频| 欧美一区二区三区人| 欧美13一16娇小xxxx| 国产精品中文久久久久久久| 欧美色就是色| 国产 porn| 欧美激情一区二区三区不卡 | 国产一区二区精品久久91| 国产综合精品久久久久成人av| 日本精品视频一区二区| 日韩av资源站| 热re91久久精品国99热蜜臀| 亚洲精品小区久久久久久| 日韩人妻精品无码一区二区三区| 99国产精品久久久久久久久久| 日韩久久久久久久久| 精品国产乱码久久久久久久| 影音先锋在线播放| 国产精品久久九九| 亚洲国产综合在线看不卡| jlzzjizz在线播放观看| 狠狠综合久久av一区二区小说| 日本一区视频| 国产成人激情视频| 成人一二三区| www.污网站| 亚洲福中文字幕伊人影院| 色呦呦免费观看| 欧亚精品中文字幕| 国产欧美日韩视频在线| 男人搞女人网站| 专区另类欧美日韩| 蜜桃91麻豆精品一二三区| 午夜精品福利视频| 久久93精品国产91久久综合| 三上悠亚av一区二区三区| 日韩一区中文字幕| 亚洲老妇色熟女老太| 欧美亚洲国产日韩2020| 欧美日韩亚洲在线观看| 天堂网成人在线| 精品美女永久免费视频| 韩国福利在线| 91香蕉电影院| 亚洲主播在线| 久久av红桃一区二区禁漫| 精品成人一区二区三区| 澳门成人av网| 中文字幕一区二区三区最新| 成人少妇影院yyyy| www.国产com| 久久人人爽人人爽人人片亚洲| 7777精品| 在线观看国产中文字幕| 亚洲伊人伊色伊影伊综合网| 你懂的视频在线播放| 国产精品永久免费观看| 亚洲午夜av| 国产成人免费在线观看视频| 亚洲国产精品yw在线观看| 成人免费在线观看视频| 欧美日韩激情四射| 欧美激情一区在线| 天堂av2024| 91麻豆国产语对白在线观看| 国产精品一卡| 538精品在线观看|