精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡

發(fā)布于 2025-10-24 00:19
瀏覽
0收藏

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

2025-10-20|RUC, RUC|??28

??http://arxiv.org/abs/2510.17354v1???
???https://huggingface.co/papers/2510.17354???
???https://github.com/SnowNation101/Nyx??

研究背景與意義

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  1. 問(wèn)題定義與現(xiàn)狀

近年來(lái),檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)成為提升大型語(yǔ)言模型(LLMs)能力的重要方法,主要通過(guò)從外部語(yǔ)料庫(kù)檢索相關(guān)文檔來(lái)補(bǔ)充模型知識(shí)。然而,現(xiàn)有RAG系統(tǒng)多聚焦于單一文本模態(tài),忽略了現(xiàn)實(shí)場(chǎng)景中查詢和文檔可能包含的多模態(tài)混合內(nèi)容(文本與圖像交織)。這導(dǎo)致檢索效果和下游生成質(zhì)量受限。

  1. 挑戰(zhàn)與目標(biāo)

面對(duì)復(fù)雜多樣的混合模態(tài)信息,傳統(tǒng)分模態(tài)處理或跨模態(tài)檢索方法難以捕捉圖文之間的空間和邏輯關(guān)聯(lián),難以支持精細(xì)推理。本文提出“通用檢索增強(qiáng)生成”(Universal Retrieval-Augmented Generation, URAG)問(wèn)題,旨在設(shè)計(jì)一個(gè)統(tǒng)一的混合模態(tài)檢索器,能夠處理任意交錯(cuò)的文本與圖像組合,顯著提升視覺(jué)語(yǔ)言任務(wù)中的生成質(zhì)量。

  1. 意義

解決URAG問(wèn)題不僅推動(dòng)多模態(tài)信息檢索技術(shù)發(fā)展,也為視覺(jué)語(yǔ)言模型提供更豐富、更準(zhǔn)確的外部知識(shí)支持,促進(jìn)多模態(tài)人工智能系統(tǒng)的實(shí)用化和智能化。

研究方法與創(chuàng)新

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  1. 數(shù)據(jù)集構(gòu)建創(chuàng)新

針對(duì)現(xiàn)實(shí)網(wǎng)絡(luò)文檔中復(fù)雜混合模態(tài)結(jié)構(gòu),作者設(shè)計(jì)了四階段自動(dòng)化數(shù)據(jù)生成與過(guò)濾流水線,從大規(guī)模真實(shí)網(wǎng)頁(yè)中采樣、利用視覺(jué)語(yǔ)言模型(VLM)自動(dòng)生成高質(zhì)量的問(wèn)答對(duì),經(jīng)過(guò)多輪后處理和困難負(fù)樣本挖掘,構(gòu)建了包含多樣交織文本與圖像的NyxQA數(shù)據(jù)集。該數(shù)據(jù)集真實(shí)反映URAG應(yīng)用場(chǎng)景,填補(bǔ)了混合模態(tài)檢索訓(xùn)練數(shù)據(jù)的空白。

  1. 統(tǒng)一混合模態(tài)檢索器設(shè)計(jì)

基于預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型Qwen-2.5-VL-3B-Instruct,構(gòu)建Nyx檢索器,采用Matryoshka表示學(xué)習(xí)(MRL)技術(shù),實(shí)現(xiàn)對(duì)不同維度的嵌入截?cái)嗳员3中畔⑼暾?,支持靈活的性能與效率權(quán)衡。該檢索器統(tǒng)一編碼查詢和文檔中的任意文本、圖像及其混合序列,突破傳統(tǒng)分模態(tài)或單一模態(tài)檢索的限制。

  1. 兩階段訓(xùn)練框架
  • 預(yù)訓(xùn)練階段:利用NyxQA及多種公開合成數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí),提升檢索器的通用多模態(tài)檢索能力。
  • 反饋微調(diào)階段:引入下游視覺(jué)語(yǔ)言模型生成的反饋,采用滑動(dòng)窗口策略構(gòu)造上下文,結(jié)合生成質(zhì)量指標(biāo)(如EM、F1),對(duì)檢索器進(jìn)行有監(jiān)督微調(diào),使其檢索結(jié)果更貼合生成模型的信息需求,實(shí)現(xiàn)檢索與生成的深度協(xié)同。

4.技術(shù)優(yōu)勢(shì)與理論基礎(chǔ)

結(jié)合對(duì)比學(xué)習(xí)和MRL,Nyx檢索器在保持高維語(yǔ)義表達(dá)能力的同時(shí),支持多層次嵌入表達(dá),提升了檢索的準(zhǔn)確性和效率。反饋驅(qū)動(dòng)的微調(diào)策略確保檢索結(jié)果與生成任務(wù)目標(biāo)高度一致,顯著提升了視覺(jué)語(yǔ)言生成的效果。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  1. 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)覆蓋文本單模態(tài)與多模態(tài)數(shù)據(jù)集,包括HotpotQA、MuSiQue、Bamboogle(文本)、MMQA、ScienceQA、NyxQA(多模態(tài))。采用多種基線模型對(duì)比:E5-v2(文本檢索基線)、CLIP、VLM2Vec、mmE5等多模態(tài)檢索器,以及直接生成模型InternVL3-8B和Qwen2.5-VL-7B。

  1. 生成性能評(píng)估

Nyx檢索器在所有數(shù)據(jù)集上均優(yōu)于現(xiàn)有基線,尤其在混合模態(tài)NyxQA上,準(zhǔn)確率提升顯著(由74.83%提升至81.83%)。反饋微調(diào)階段帶來(lái)額外7個(gè)百分點(diǎn)的提升,驗(yàn)證了反饋驅(qū)動(dòng)訓(xùn)練的有效性。Nyx在文本單模態(tài)任務(wù)也表現(xiàn)優(yōu)異,顯示出良好的泛化能力。

  1. 嵌入能力分析

在MMEB多任務(wù)基準(zhǔn)測(cè)試中,Nyx在分類、視覺(jué)問(wèn)答、檢索和視覺(jué)定位任務(wù)上均優(yōu)于大多數(shù)基線,且反饋微調(diào)后整體性能提升2.1%。說(shuō)明Nyx不僅提升了檢索性能,也增強(qiáng)了嵌入表達(dá)的質(zhì)量和泛化能力。

  1. 數(shù)據(jù)規(guī)模與檢索文檔數(shù)影響

訓(xùn)練數(shù)據(jù)規(guī)模與URAG性能呈對(duì)數(shù)線性關(guān)系,數(shù)據(jù)量增加帶來(lái)穩(wěn)定提升。增加檢索文檔數(shù)量也顯著提高生成質(zhì)量,但邊際效益遞減。Nyx在不同文檔數(shù)量下均優(yōu)于基線,且反饋微調(diào)使其在少文檔場(chǎng)景下表現(xiàn)更穩(wěn)健。

  1. 生成模型泛化性

Nyx檢索器雖以Qwen2.5-VL-7B為反饋源訓(xùn)練,但在不同規(guī)模的InternVL3模型上均表現(xiàn)出色,表明其訓(xùn)練策略具有良好的跨模型適應(yīng)性。

結(jié)論與展望

  1. 主要貢獻(xiàn)總結(jié)

本文首次系統(tǒng)提出并解決了通用檢索增強(qiáng)生成(URAG)問(wèn)題,設(shè)計(jì)了統(tǒng)一的混合模態(tài)檢索器Nyx,構(gòu)建了真實(shí)多樣的NyxQA數(shù)據(jù)集,提出了結(jié)合對(duì)比學(xué)習(xí)與生成模型反饋的兩階段訓(xùn)練框架。實(shí)驗(yàn)結(jié)果充分證明Nyx在多模態(tài)檢索和視覺(jué)語(yǔ)言生成任務(wù)中的領(lǐng)先性能及良好泛化能力。

  1. 方法局限
  • 目前模型規(guī)模相對(duì)有限,可能影響對(duì)某些復(fù)雜任務(wù)的表現(xiàn)。
  • 生成模型反饋依賴于特定模型,盡管已驗(yàn)證一定泛化,但更廣泛的適應(yīng)性仍需進(jìn)一步研究。
  • 數(shù)據(jù)自動(dòng)生成與過(guò)濾流程雖有效,但仍可能存在噪聲和偏差,影響模型訓(xùn)練。
  1. 未來(lái)展望
  • 擴(kuò)展訓(xùn)練數(shù)據(jù)規(guī)模與多樣性,進(jìn)一步提升模型泛化能力。
  • 探索更高效的多模態(tài)表示學(xué)習(xí)方法,優(yōu)化模型計(jì)算效率。
  • 深入研究檢索與生成模型的聯(lián)合訓(xùn)練策略,實(shí)現(xiàn)更緊密的協(xié)同優(yōu)化。
  • 拓展到更多實(shí)際應(yīng)用場(chǎng)景,如多模態(tài)對(duì)話、跨媒體內(nèi)容理解等,推動(dòng)多模態(tài)人工智能技術(shù)的實(shí)用化。

綜上,本文為混合模態(tài)檢索與生成領(lǐng)域提供了創(chuàng)新性理論與實(shí)踐框架,具有重要的學(xué)術(shù)價(jià)值和應(yīng)用潛力。

FineVision: Open Data Is All You Need

2025-10-20|HuggingFace, TUM, Stanford|??24

??http://arxiv.org/abs/2510.17269v1???
???https://huggingface.co/papers/2510.17269??

研究背景與意義

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 視覺(jué)語(yǔ)言模型(VLM)近年來(lái)取得顯著進(jìn)展,但受限于公開多模態(tài)數(shù)據(jù)集的碎片化、質(zhì)量不一和數(shù)據(jù)污染問(wèn)題。
  • 現(xiàn)有開源數(shù)據(jù)集規(guī)模小且分散,導(dǎo)致模型性能與閉源模型存在差距,限制了開源社區(qū)在數(shù)據(jù)驅(qū)動(dòng)研究上的能力。
  • 以往數(shù)據(jù)集多為簡(jiǎn)單聚合,缺乏系統(tǒng)化的清洗、去重和去污染流程,難以滿足新興任務(wù)如GUI交互的需求。
  • 本文提出FineVision,一個(gè)集成了24M樣本、185個(gè)子集、覆蓋17M圖像和89M對(duì)話輪次的超大規(guī)模公開數(shù)據(jù)集,旨在為VLM訓(xùn)練提供高質(zhì)量、多樣化和可復(fù)現(xiàn)的數(shù)據(jù)基礎(chǔ)。

研究方法與創(chuàng)新

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 數(shù)據(jù)集構(gòu)建流程:采用半自動(dòng)化、人類監(jiān)督的流水線,將200+公開數(shù)據(jù)源統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)對(duì)話格式,結(jié)合自動(dòng)化批量導(dǎo)入與人工審核,確保注釋的準(zhǔn)確性和多樣性。
  • 統(tǒng)一對(duì)話模式:通過(guò)多模板策略將異構(gòu)標(biāo)注(圖像問(wèn)答、圖像描述、空間關(guān)系、文檔理解、OCR、分類檢測(cè)等)轉(zhuǎn)化為多輪對(duì)話,提升模型對(duì)復(fù)雜任務(wù)的適應(yīng)能力。
  • GUI動(dòng)作空間統(tǒng)一:針對(duì)不同GUI數(shù)據(jù)源動(dòng)作定義不一致的問(wèn)題,設(shè)計(jì)統(tǒng)一的動(dòng)作解析和轉(zhuǎn)換模塊,實(shí)現(xiàn)跨平臺(tái)、跨任務(wù)的動(dòng)作模式一致性,支持模型學(xué)習(xí)通用的界面交互能力。
  • 數(shù)據(jù)清洗與去重:結(jié)合自監(jiān)督復(fù)制檢測(cè)(SSCD)和余弦相似度,嚴(yán)格剔除內(nèi)部及跨數(shù)據(jù)集的近似重復(fù)樣本,并對(duì)66個(gè)公開基準(zhǔn)進(jìn)行訓(xùn)練集去污染,顯著降低訓(xùn)練-測(cè)試集泄露風(fēng)險(xiǎn)。
  • 質(zhì)量控制機(jī)制:引入LLM/VLM作為質(zhì)量評(píng)判者,從格式、相關(guān)性、視覺(jué)依賴性和圖像-問(wèn)題對(duì)應(yīng)度四個(gè)維度對(duì)對(duì)話輪次進(jìn)行評(píng)分,確保數(shù)據(jù)質(zhì)量均衡且覆蓋多樣任務(wù)特性。
  • 創(chuàng)新點(diǎn)總結(jié):FineVision不僅規(guī)模領(lǐng)先,還在數(shù)據(jù)多樣性、質(zhì)量控制和任務(wù)覆蓋(尤其是GUI任務(wù))上實(shí)現(xiàn)突破,構(gòu)建了一個(gè)更均衡、全面且適應(yīng)未來(lái)視覺(jué)語(yǔ)言研究需求的數(shù)據(jù)平臺(tái)。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 實(shí)驗(yàn)設(shè)置:使用460M參數(shù)SmolVLM模型,單階段訓(xùn)練20K步,批量大小512,覆蓋FineVision全量數(shù)據(jù)一輪,基線對(duì)比包括Cauldron、Cambrian-7M和LLaVA-OneVision。
  • 性能對(duì)比:FineVision訓(xùn)練模型在11個(gè)多樣化評(píng)測(cè)基準(zhǔn)上表現(xiàn)最優(yōu),訓(xùn)練后期領(lǐng)先其他模型12.7個(gè)百分點(diǎn)(對(duì)Cauldron)、5.1個(gè)百分點(diǎn)(對(duì)Cambrian-7M)、14.3個(gè)百分點(diǎn)(對(duì)LLaVA-OneVision),表現(xiàn)出更強(qiáng)泛化能力。
  • 去污染影響:FineVision數(shù)據(jù)集污染率僅1.02%,遠(yuǎn)低于基線2.15%-3.05%;去污染后性能下降僅1.6個(gè)百分點(diǎn),基線下降2.7%-3.7個(gè)百分點(diǎn),驗(yàn)證FineVision的優(yōu)勢(shì)非因數(shù)據(jù)泄露。
  • GUI任務(wù)能力:FineVision包含豐富GUI/agentic數(shù)據(jù),訓(xùn)練模型在Screenspot-V2和Screenspot-Pro基準(zhǔn)中表現(xiàn)優(yōu)異,微調(diào)后性能可媲美4倍參數(shù)規(guī)模的同架構(gòu)模型,展示了新興交互能力的顯著提升。
  • 數(shù)據(jù)多樣性分析:FineVision在視覺(jué)概念廣度(有效秩)和均衡度(參與比率)上均優(yōu)于其他數(shù)據(jù)集,保證模型接受廣泛且均衡的視覺(jué)知識(shí)輸入。

結(jié)論與展望

  • FineVision通過(guò)系統(tǒng)化的半自動(dòng)化與人工質(zhì)量控制流程,成功整合并凈化了超過(guò)200個(gè)公開數(shù)據(jù)源,構(gòu)建了迄今最大且質(zhì)量領(lǐng)先的公開視覺(jué)語(yǔ)言訓(xùn)練語(yǔ)料。
  • 該數(shù)據(jù)集顯著提升了開源視覺(jué)語(yǔ)言模型的性能和泛化能力,尤其在新興的GUI交互任務(wù)中展現(xiàn)出強(qiáng)大潛力。
  • 發(fā)布了數(shù)據(jù)集、轉(zhuǎn)換腳本、去重工具及預(yù)計(jì)算嵌入,推動(dòng)視覺(jué)語(yǔ)言領(lǐng)域的數(shù)據(jù)中心研究和開放創(chuàng)新。
  • 局限性包括殘留數(shù)據(jù)重疊、多文檔長(zhǎng)上下文推理能力仍待提升,以及GUI任務(wù)評(píng)測(cè)體系尚不完善。
  • 未來(lái)工作將聚焦視頻數(shù)據(jù)、多語(yǔ)言支持、長(zhǎng)上下文推理和更嚴(yán)格的安全審計(jì),持續(xù)縮小開源與閉源模型間的差距,促進(jìn)視覺(jué)語(yǔ)言模型的廣泛應(yīng)用和發(fā)展。

RL makes MLLMs see better than SFT

2025-10-18|KAIST, NAVER|??18

??http://arxiv.org/abs/2510.16333v1???
???https://huggingface.co/papers/2510.16333???
???https://june-page.github.io/pivot/??

研究背景與意義

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 多模態(tài)大型語(yǔ)言模型(MLLM)性能長(zhǎng)期被認(rèn)為主要依賴于其大型語(yǔ)言模型(LLM)骨干,導(dǎo)致視覺(jué)編碼器的作用被忽視,尤其是其對(duì)圖像感知能力的影響缺乏深入理解。
  • 近年來(lái),MLLM訓(xùn)練范式從傳統(tǒng)的監(jiān)督微調(diào)(SFT)逐漸轉(zhuǎn)向強(qiáng)化學(xué)習(xí)(RL),特別是基于人類偏好的直接偏好優(yōu)化(DPO),但對(duì)這種轉(zhuǎn)變?nèi)绾沃厮芤曈X(jué)編碼器及模型整體表現(xiàn)的系統(tǒng)分析尚缺乏。
  • 本文旨在填補(bǔ)這一空白,通過(guò)對(duì)比SFT與RL訓(xùn)練策略在多模態(tài)視覺(jué)問(wèn)答(VQA)等任務(wù)上的表現(xiàn),揭示RL對(duì)視覺(jué)編碼器產(chǎn)生的深遠(yuǎn)影響,并提出一種高效提升視覺(jué)編碼器能力的新方法——偏好指導(dǎo)視覺(jué)優(yōu)化(PIVOT)。

研究方法與創(chuàng)新

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 訓(xùn)練策略對(duì)比分析:構(gòu)建統(tǒng)一的訓(xùn)練框架,嚴(yán)格控制訓(xùn)練數(shù)據(jù)量,比較SFT與DPO兩種后期訓(xùn)練方式對(duì)MLLM及其視覺(jué)編碼器的影響,涵蓋多種模型規(guī)模和視覺(jué)編碼器架構(gòu)。
  • 視覺(jué)編碼器深入剖析:通過(guò)ImageNet線性探針評(píng)測(cè)、語(yǔ)義分割探測(cè)和梯度可視化,揭示RL訓(xùn)練下視覺(jué)編碼器產(chǎn)生更強(qiáng)、更局部化的視覺(jué)特征,提升細(xì)粒度視覺(jué)理解和定位能力。
  • PIVOT訓(xùn)練范式提出:將RL訓(xùn)練過(guò)程重新定義為偏好指導(dǎo)視覺(jué)優(yōu)化(PIVOT),將視覺(jué)編碼器與LLM結(jié)合,利用DPO進(jìn)行微調(diào),極大提升視覺(jué)編碼器表現(xiàn),且訓(xùn)練成本低于傳統(tǒng)視覺(jué)預(yù)訓(xùn)練1%。
  • 多種視覺(jué)模型適用性驗(yàn)證:PIVOT適用于多種主流視覺(jué)編碼器,包括CLIP、SigLIP、DINO、MAE等,均顯著提升其在MLLM中的性能,表明該訓(xùn)練策略具有廣泛的通用性和強(qiáng)大的提升潛力。
  • 模型規(guī)模與訓(xùn)練數(shù)據(jù)影響分析:系統(tǒng)評(píng)估視覺(jué)編碼器和語(yǔ)言模型規(guī)模對(duì)性能的影響,發(fā)現(xiàn)視覺(jué)編碼器容量對(duì)視覺(jué)密集任務(wù)尤為關(guān)鍵,且DPO訓(xùn)練在數(shù)據(jù)擴(kuò)展時(shí)表現(xiàn)更優(yōu)。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 多尺度模型實(shí)驗(yàn):采用不同規(guī)模的Qwen2.5語(yǔ)言模型(0.5B至7B參數(shù))和SigLIP視覺(jué)編碼器(86M至1B參數(shù)),在16個(gè)視覺(jué)問(wèn)答任務(wù)上評(píng)測(cè)SFT與DPO的表現(xiàn)。
  • 性能對(duì)比:DPO在強(qiáng)視覺(jué)相關(guān)任務(wù)(OCR&Chart VQA、Vision-Centric VQA)上顯著優(yōu)于SFT,提升幅度達(dá)數(shù)個(gè)百分點(diǎn),而在弱視覺(jué)相關(guān)任務(wù)(知識(shí)類VQA)上提升有限,體現(xiàn)了RL訓(xùn)練對(duì)視覺(jué)能力的特別增強(qiáng)作用。
  • 視覺(jué)編碼器獨(dú)立評(píng)估:分離視覺(jué)編碼器后,在ImageNet分類和ADE20K語(yǔ)義分割任務(wù)上,DPO訓(xùn)練的編碼器表現(xiàn)優(yōu)于SFT,且梯度可視化顯示DPO能更準(zhǔn)確聚焦于問(wèn)題相關(guān)的圖像區(qū)域,驗(yàn)證了其細(xì)粒度視覺(jué)特征學(xué)習(xí)能力。
  • PIVOT效果:將PIVOT應(yīng)用于多種視覺(jué)編碼器后,顯著提升MLLM在視覺(jué)問(wèn)答任務(wù)上的綜合表現(xiàn),甚至使得較小或較舊的模型超過(guò)了參數(shù)更多、訓(xùn)練更復(fù)雜的最新模型,且訓(xùn)練資源消耗極低。
  • 模型融合實(shí)驗(yàn):結(jié)合PIVOT增強(qiáng)的視覺(jué)編碼器與其他強(qiáng)大視覺(jué)模型,實(shí)現(xiàn)進(jìn)一步性能提升,展現(xiàn)了PIVOT作為通用增強(qiáng)策略的潛力。

結(jié)論與展望

  • 本研究首次系統(tǒng)比較了SFT與RL訓(xùn)練對(duì)MLLM及其視覺(jué)編碼器的差異,證實(shí)RL(尤其是DPO)不僅提升語(yǔ)言模型對(duì)齊,也根本改善了視覺(jué)表示,增強(qiáng)視覺(jué)感知和定位能力。
  • 提出的PIVOT訓(xùn)練范式為提升視覺(jué)編碼器性能提供了高效路徑,顯著降低訓(xùn)練成本,同時(shí)提升多模態(tài)模型整體表現(xiàn),為未來(lái)視覺(jué)模型設(shè)計(jì)與訓(xùn)練開辟新方向。
  • 未來(lái)工作可進(jìn)一步探索PIVOT在更多視覺(jué)任務(wù)和多模態(tài)融合場(chǎng)景中的應(yīng)用,優(yōu)化訓(xùn)練策略,推動(dòng)MLLM視覺(jué)智能的持續(xù)進(jìn)步。

Annotation-Efficient Universal Honesty Alignment

2025-10-20|ICT, CAS, UCAS|??17

??http://arxiv.org/abs/2510.17509v1???
???https://huggingface.co/papers/2510.17509???
???https://github.com/Trustworthy-Information-Access/Annotation-Efficient-Universal-Honesty-Alignment??

研究背景與意義

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 問(wèn)題定義與現(xiàn)狀

大型語(yǔ)言模型(LLMs)在實(shí)際應(yīng)用中需具備“誠(chéng)實(shí)對(duì)齊”能力,即準(zhǔn)確識(shí)別自身知識(shí)邊界并表達(dá)校準(zhǔn)后的置信度,從而保障可信賴的部署?,F(xiàn)有方法分為訓(xùn)練自由型(如基于token概率、自我一致性)和訓(xùn)練驅(qū)動(dòng)型(基于正確性注釋校準(zhǔn))兩類。訓(xùn)練驅(qū)動(dòng)型雖效果更優(yōu),但需大量昂貴的正確性標(biāo)注,限制了其普適性和規(guī)?;?/p>

  • 挑戰(zhàn)與目標(biāo)

如何在注釋資源有限的情況下實(shí)現(xiàn)普適且高效的誠(chéng)實(shí)對(duì)齊,是當(dāng)前的核心難題。論文提出的目標(biāo)是設(shè)計(jì)一種注釋高效的訓(xùn)練框架,使模型能在少量正確性注釋下,實(shí)現(xiàn)接近最優(yōu)的置信度校準(zhǔn),并具備跨任務(wù)的泛化能力。

研究方法與創(chuàng)新

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 技術(shù)描述提出Elicitation-Then-Calibration(EliCal)雙階段訓(xùn)練框架:1)置信度引導(dǎo)階段:利用廉價(jià)的自我一致性信號(hào)訓(xùn)練模型表達(dá)內(nèi)部置信度,構(gòu)建大規(guī)模無(wú)標(biāo)注置信度數(shù)據(jù)。2)置信度校準(zhǔn)階段:用小規(guī)模正確性注釋微調(diào)模型,使表達(dá)的置信度與實(shí)際準(zhǔn)確率對(duì)齊。
  • 創(chuàng)新點(diǎn)

利用自我一致性作為內(nèi)在置信度信號(hào),突破了傳統(tǒng)訓(xùn)練驅(qū)動(dòng)方法對(duì)大量標(biāo)注的依賴。

結(jié)合LoRA技術(shù)凍結(jié)主模型參數(shù),僅微調(diào)輕量模塊,保證了訓(xùn)練效率和原模型能力的穩(wěn)定。

設(shè)計(jì)了“預(yù)訓(xùn)練-微調(diào)”式的雙階段學(xué)習(xí)策略,顯著提升了注釋效率和泛化能力。

  • 優(yōu)勢(shì)與理論基礎(chǔ)

a.自我一致性置信度與實(shí)際正確率高度相關(guān),具備良好的學(xué)習(xí)基礎(chǔ)。

b.通過(guò)先引導(dǎo)模型表達(dá)內(nèi)在置信度,再用少量標(biāo)注校準(zhǔn),避免了直接從零學(xué)習(xí)置信度表達(dá)的困難。

c.該方法理論上屬于半監(jiān)督學(xué)習(xí)范式,有效利用了大量無(wú)標(biāo)注數(shù)據(jù)和少量標(biāo)注數(shù)據(jù)的協(xié)同作用。

  • 與現(xiàn)有方法對(duì)比

相較于僅依賴正確性注釋的校準(zhǔn)方法(Cal-Only),EliCal在標(biāo)注數(shù)據(jù)極少時(shí)表現(xiàn)更優(yōu),且泛化到未見任務(wù)(如MMLU)時(shí)仍保持優(yōu)勢(shì)。訓(xùn)練自由方法雖無(wú)需標(biāo)注,但置信度表達(dá)準(zhǔn)確度不足。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

多模態(tài)混合RAG;VLM開發(fā)數(shù)據(jù)集清晰,高質(zhì)量數(shù)據(jù)基礎(chǔ);偏好指導(dǎo)視覺(jué)優(yōu)化;LLM內(nèi)部信號(hào)和監(jiān)督信號(hào)的平衡-AI.x社區(qū)

  • 實(shí)驗(yàn)設(shè)置

構(gòu)建了HonestyBench大規(guī)模基準(zhǔn),涵蓋10個(gè)免費(fèi)問(wèn)答數(shù)據(jù)集,含56萬(wàn)訓(xùn)練樣本和7萬(wàn)評(píng)測(cè)樣本,均帶有正確性和自我一致性標(biāo)注。

采用三種代表性開源LLM進(jìn)行評(píng)測(cè),指標(biāo)包括AUROC(區(qū)分正確與錯(cuò)誤回答的能力)和Alignment(置信度與正確性的匹配度)。

對(duì)比訓(xùn)練自由基線、僅引導(dǎo)(Eli-Only)、僅校準(zhǔn)(Cal-Only)及EliCal方法。

  • 關(guān)鍵結(jié)果
  • EliCal使用僅1k正確性注釋(約0.18%全監(jiān)督數(shù)據(jù))即可達(dá)到Cal-Only全部56萬(wàn)注釋性能的98%,顯著提升注釋效率。
  • 在所有訓(xùn)練自由和訓(xùn)練驅(qū)動(dòng)方法中,EliCal在大多數(shù)數(shù)據(jù)集上表現(xiàn)最佳,尤其在OOD和MMLU任務(wù)中泛化能力優(yōu)越。
  • 置信度表達(dá)的準(zhǔn)確性和可靠性顯著增強(qiáng),支持實(shí)際應(yīng)用中基于置信度的決策(如是否調(diào)用檢索增強(qiáng))。
  • 多場(chǎng)景表現(xiàn)

a.在內(nèi)外域測(cè)試均表現(xiàn)穩(wěn)健,證明了方法的普適性。

b.Ablation實(shí)驗(yàn)顯示引導(dǎo)階段數(shù)據(jù)規(guī)模越大,效果越好,且LoRA微調(diào)結(jié)構(gòu)有效平衡了性能與訓(xùn)練成本。

結(jié)論與展望

  • 總結(jié)貢獻(xiàn)

本文提出的EliCal框架創(chuàng)新性地將模型內(nèi)在置信度引導(dǎo)與少量標(biāo)注校準(zhǔn)結(jié)合,實(shí)現(xiàn)了注釋高效、性能優(yōu)異的誠(chéng)實(shí)對(duì)齊。HonestyBench基準(zhǔn)的構(gòu)建為未來(lái)普適誠(chéng)實(shí)對(duì)齊研究提供了重要資源和評(píng)測(cè)平臺(tái)。

  • 局限分析

目前主要聚焦于問(wèn)答任務(wù),其他類型任務(wù)的適用性尚待驗(yàn)證。

自我一致性信號(hào)雖有效,但仍可能受限于模型生成多樣性和語(yǔ)義判定準(zhǔn)確性。

LoRA微調(diào)雖輕量,但對(duì)超大模型的擴(kuò)展性和實(shí)時(shí)性影響需進(jìn)一步研究。

  • 未來(lái)展望

探索更多自監(jiān)督信號(hào)融合,進(jìn)一步減少對(duì)人工標(biāo)注的依賴。

擴(kuò)展框架至多模態(tài)和不同任務(wù)類型,推動(dòng)通用誠(chéng)實(shí)對(duì)齊模型發(fā)展。

結(jié)合模型架構(gòu)創(chuàng)新,提升置信度表達(dá)的準(zhǔn)確性和解釋性,增強(qiáng)用戶信任。

推動(dòng)誠(chéng)實(shí)對(duì)齊技術(shù)在實(shí)際AI系統(tǒng)中的集成與應(yīng)用,促進(jìn)安全可靠的智能服務(wù)落地。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇

標(biāo)簽
已于2025-10-24 15:21:25修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    日韩成人午夜电影| 国产精品videossex| 成人免费小视频| caoporn国产精品免费公开| 黄色激情视频在线观看| 亚洲精品中文字幕99999| 欧美视频一区二区在线观看| 日韩国产小视频| 国产资源在线看| 国产精一品亚洲二区在线视频| 992tv成人免费视频| 懂色av粉嫩av浪潮av| 综合中文字幕| 欧美美女bb生活片| 成熟了的熟妇毛茸茸| 欧美jizz18性欧美| 久久综合九色综合97婷婷| 成人妇女免费播放久久久| 看片网址国产福利av中文字幕| 97视频精品| 亚洲欧美成人网| 久久久久亚洲av成人网人人软件| 欧美艳星kaydenkross| 亚洲综合色区另类av| 亚洲黄色一区二区三区| 日本精品一区二区在线观看| 久久99精品久久只有精品| 欧美自拍视频在线观看| 久草视频免费在线播放| 日韩专区精品| 亚洲视频精品在线| 国产 中文 字幕 日韩 在线| 国产一区二区三区精品在线观看 | 忘忧草在线www成人影院| 亚洲一区二区三区四区的| 一区精品在线| 番号在线播放| 久久久久久久久久美女| 国产综合18久久久久久| 精品久久久免费视频| 久久99九九99精品| 国产在线精品一区免费香蕉| 天天干,天天干| 亚洲综合社区| 国产91精品久| 亚洲精品午夜国产va久久成人| 狠狠爱成人网| 色综合91久久精品中文字幕| 成年人一级黄色片| 91tv官网精品成人亚洲| www欧美日韩| 永久免费未视频| 999久久久国产精品| 国产一区二区久久精品| 中文字幕网站在线观看| 久久91成人| 亚洲视频在线视频| 免费成人深夜天涯网站| 日韩亚洲一区在线| 在线视频日韩精品| 免费成人深夜蜜桃视频| 欧美gvvideo网站| 精品国产欧美一区二区五十路| 日本二区三区视频| 欧美一区二区三区久久精品| 欧美日韩国产999| 国产香蕉在线视频| 亚洲一区不卡| 国产精品成人观看视频国产奇米| 波多野结衣电车痴汉| 热久久免费视频| 国产日韩欧美电影在线观看| 一卡二卡在线观看| 国产精品系列在线观看| 国产福利久久精品| 亚洲欧洲成人在线| 欧美国产日韩在线观看| 在线成人性视频| 在线观看三级视频| 亚洲sss视频在线视频| 黑人糟蹋人妻hd中文字幕 | 日本不卡视频在线播放| 懂色av蜜臀av粉嫩av喷吹| 久久www免费人成看片高清| 5g国产欧美日韩视频| 性感美女一级片| 国产精品无圣光一区二区| 永久免费在线看片视频| 51漫画成人app入口| 色老汉一区二区三区| 欧美激情第3页| 国产精品chinese在线观看| 亚洲欧美www| 亚洲天堂黄色片| 亚洲永久免费| 92国产精品久久久久首页| 四季av日韩精品一区| 国产欧美日韩一区二区三区在线观看| 国产盗摄视频在线观看| 欧洲一区精品| 这里只有精品视频在线观看| chinese麻豆新拍video| 99re久久最新地址获取| 久久久久久久久久久成人| 五月激情丁香网| 成人免费视频一区二区| 亚洲国产成人不卡| 黄在线观看免费网站ktv| 在线不卡中文字幕| 中国毛片在线观看| 国产精品v亚洲精品v日韩精品| 国产999视频| 亚洲精品一区二区三区不卡| 国产精品嫩草99a| 精品中文字幕av| 亚洲精品18| 色香阁99久久精品久久久| 国产成人一区二区三区影院在线| 老司机一区二区| 另类小说综合网| free性欧美| 91精品国产免费| 五月婷六月丁香| 欧美在线综合| 精品日本一区二区| 图片区小说区亚洲| 欧美一区二区三区视频免费| 亚洲黄色网址大全| 日韩成人一级片| 欧美日韩亚洲一区二区三区四区| 丁香花电影在线观看完整版| 欧美二区乱c少妇| 欧美一区二区三区粗大| 国产模特精品视频久久久久| 国产乱码精品一区二区三区中文 | 中文字幕第一区综合| 青青草原成人网| 久久精品亚洲成在人线av网址| 久久精品久久久久| 亚洲天堂中文在线| 欧美国产成人在线| 男女男精品视频站| 国产一区二区三区站长工具| 日本精品久久中文字幕佐佐木| 日本美女一级片| 午夜电影网亚洲视频| 丰满岳乱妇一区二区 | 亚洲卡通动漫在线| 手机在线国产视频| 中文字幕免费一区二区三区| 91丝袜美腿美女视频网站| 午夜激情在线观看| 欧美猛男男办公室激情| 亚洲天堂网av在线| 国产精品一卡二卡| 日韩精品视频在线观看视频| 亚洲电影一区| 久久全国免费视频| 视频二区在线观看| 欧美日韩一区二区精品| 成人片黄网站色大片免费毛片| 国产亚洲网站| 水蜜桃亚洲精品| 久久免费影院| 欧美裸身视频免费观看| 亚洲欧美激情另类| 日韩欧美国产激情| 夫妇交换中文字幕| 国产精品亚洲一区二区三区妖精| 丁香色欲久久久久久综合网| 精品久久ai| 国产国语videosex另类| 午夜伦理在线| 91精品国产综合久久精品| 欧美人妻精品一区二区三区| 成人免费观看视频| 中国丰满人妻videoshd| 区一区二视频| 99国产超薄肉色丝袜交足的后果| 国产va在线视频| 在线播放日韩专区| 国产xxxx孕妇| 欧美网站在线观看| 91传媒免费观看| 成人高清视频在线观看| www黄色在线| 亚洲精品久久久| 狠狠综合久久av| 国产91亚洲精品久久久| 欧美激情一区二区三区高清视频| 欧美成人综合在线| 欧美精品乱码久久久久久按摩| 日本少妇裸体做爰| 欧美激情一区二区在线| 91porn在线| 日韩福利视频导航| 日韩精品视频在线观看视频| 欧美中文字幕一区二区| julia一区二区中文久久94| 天天免费亚洲黑人免费| 欧美放荡办公室videos4k| 美女做暖暖视频免费在线观看全部网址91 | 国产av熟女一区二区三区| 视频一区中文| 懂色一区二区三区av片| 国产一区二区三区四区五区3d | 亚洲免费在线精品一区| 国产精品极品在线观看| 国产精品欧美日韩一区二区| 大桥未久在线播放| 久久久国产视频| av在线之家电影网站| 亚洲国产欧美久久| 国产精品女同一区二区| 色av成人天堂桃色av| 精品少妇theporn| 1000精品久久久久久久久| 成人免费毛片糖心| 不卡视频一二三四| 午夜国产精品影院在线观看| 国产熟人av一二三区| 狠狠入ady亚洲精品经典电影| 伊人色综合影院| jizzjizz欧美69巨大| 蜜桃av噜噜一区二区三区| 秋霞午夜一区二区三区视频| 国产热re99久久6国产精品| 成人影院av| 91精品国产色综合| 美女精品导航| 伦伦影院午夜日韩欧美限制| jizz在线免费观看| 一区二区三欧美| 国产黄在线观看| 亚洲欧美另类自拍| 手机亚洲第一页| 亚洲国产小视频| 天天干天天干天天干| 精品国产免费久久| 不卡视频免费在线观看| 日韩一级在线观看| 国产成人久久精品77777综合 | 国产人妻精品一区二区三区| 欧美精品在线一区二区三区| 中文在线观看av| 欧美天堂一区二区三区| 中文字幕av网站| 欧美日韩美女一区二区| 国产精品国产精品国产| 欧美亚洲禁片免费| 最近中文字幕免费在线观看| 欧美日韩久久久| 国产一区二区三区黄片| 91精品国产综合久久久蜜臀粉嫩| 99精品视频免费看| 欧美tickling网站挠脚心| 成人免费视频国产免费麻豆| 亚洲高清色综合| 欧美视频综合| 国产一区二区三区视频在线观看| 成人免费一区二区三区视频网站| 中文字幕免费国产精品| 精品欧美色视频网站在线观看| 久久精品视频网站| www久久日com| 最近2019年手机中文字幕| 男人天堂久久久| 亚洲一区二区久久| а天堂中文在线官网| 久热精品视频在线观看| 欧美人与禽猛交乱配| 国内精品久久久久| 波多野结衣精品| 91大神福利视频在线| 永久免费毛片在线播放| 欧美激情免费视频| 黄频免费在线观看| 国产精品久久久久福利| 精品成人18| 国产精品日韩一区二区| 亚洲成a人片77777在线播放 | 亚洲色图21p| 夜夜嗨av一区二区三区四区| 国产最新视频在线观看| 久久中文字幕视频| 理论片午夜视频在线观看| 国产成人精品久久二区二区| 激情亚洲小说| 亚洲自拍偷拍第一页| 国产精品乱战久久久| 欧美精品七区| 亚洲啊v在线观看| 777精品久无码人妻蜜桃| 老司机免费视频久久| 亚洲综合在线一区二区| 99精品国产一区二区三区不卡| 精品人伦一区二区三电影| 中文字幕日本不卡| 国产大片中文字幕| 日本乱码高清不卡字幕| www.国产黄色| 亚洲视频欧洲视频| 97超碰人人在线| 91精品国产高清自在线| 成人在线免费电影网站| 99精品国产高清一区二区| 色老板在线视频一区二区| 日本一区二区免费看| 在线成人h网| 黄色手机在线视频| 99麻豆久久久国产精品免费| 日本一级二级视频| 91福利在线看| 国精品人妻无码一区二区三区喝尿 | 伊人夜夜躁av伊人久久| 麻豆成人免费视频| 日韩三级视频在线观看| 91porn在线观看| 26uuu另类亚洲欧美日本一| 国产精品99| 日本精品二区| 亚洲久久成人| 日韩av成人网| 国产精品嫩草影院com| 国产精品500部| 精品盗摄一区二区三区| 一级日本在线| 韩国精品美女www爽爽爽视频| 成人动漫视频在线观看| 水蜜桃一区二区三区| 一区在线视频观看| 人妻体体内射精一区二区| 中文字幕欧美激情一区| 91porny九色| 亚洲欧美一区二区激情| 2001个疯子在线观看| 国产精品久久久久久久免费大片 | 自拍偷拍视频在线| 久久99久久精品欧美| 摸摸摸bbb毛毛毛片| 91传媒视频在线播放| 四虎在线视频| 97视频在线观看免费| 欧美日韩另类图片| 国产色一区二区三区| 国产主播一区二区| 国产精品免费人成网站酒店| 欧美无砖专区一中文字| 成年人在线视频| 国产精品极品美女粉嫩高清在线| 亚洲黄页在线观看| 99免费视频观看| 久久免费视频色| 国产精品国产精品国产| 亚洲午夜精品久久久久久久久久久久| 九色porny视频在线观看| 精品国产一区二区三区日日嗨| 在线成人国产| 又色又爽又黄18网站| 亚洲成人自拍网| 黄频在线免费观看| 97在线视频国产| 亚洲都市激情| 国产特级淫片高清视频| 成人h动漫精品一区二| 日本一区二区网站| 亚洲精品一区中文| 粉嫩一区二区三区| 日韩在线导航| 国产一区二区不卡老阿姨| 黄色一级片在线免费观看| 亚洲精品在线观看网站| 18aaaa精品欧美大片h| 麻豆亚洲一区| 精品一区二区日韩| 九九热这里有精品视频| 日韩毛片在线观看| 欧美××××黑人××性爽 | 美女网站免费观看视频| 国产视频亚洲色图| 国产乱色精品成人免费视频 | 欧美一区二区黄片| 国产99在线|中文| 婷婷亚洲五月色综合| 97人妻精品一区二区三区免费| 图片区小说区国产精品视频| 四虎影视在线观看2413| 国产精品久久久久久超碰 | 中文字幕亚洲天堂| 日韩黄色av| 自拍日韩亚洲一区在线| 国产三级欧美三级日产三级99| 在线观看日批视频| 美女福利视频一区| 精品国产一区探花在线观看| mm131国产精品| 欧美小视频在线| 黄网址在线观看| 国产精品二区三区四区| 久久精品国产精品亚洲红杏|