精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度

發布于 2024-3-28 09:34
瀏覽
0收藏

多模態技術是 AI 多樣化場景應用的重要基礎,多模態大模型(MLLM)展現出了優秀的多模態信息理解和推理能力,正成為人工智能研究的前沿熱點。然而,與大語言模型一樣,多模態大模型也依然受到“幻覺”問題的困擾,即模型在回答中出現與圖片信息不符的內容。經過測試發現,即便是 GPT-4V 也會在 45.9% 的圖片回答中出現明顯的“幻覺”


大模型出現“幻覺”的癥結之一在于未經人類對齊時發生的“過泛化”情況。例如,讓模型描述街景圖片時,無論畫面中是否有行人出現,模型都會因為自身過度的泛化問題,輸出對行人的描述。這種現象在當前的多模態大模型中普遍存在,也使得多模態大模型的應用在可信度問題得到解決之前仍受限制。


因此,如何盡可能減少多模態大模型的“幻覺”,提高回答的準確性和可信度,是所有人工智能研究者都在奮力攻克的難題。


為緩解多模態大模型的幻覺問題,我們提出了全新的多模態大模型對齊框架 RLHF-V,從數據和算法層面入手顯著減少“幻覺”的出現。


目前,這一工作已被 CVPR 2024 接收。應用該方法訓練的開源模型 OmniLMM-12B 在多個幻覺指標上取得了接近 GPT-4V 的水平。


核心優勢:

  • 首次提出采用人工修改的方法獲得細粒度多模態人工偏好數據;
  • 擁有突出的數據效率:僅需 1.4k 人類反饋的細粒度數據單機 8×A100 訓練 1 小時即可使模型幻覺率降低 34.8%;
  • 具有優秀模型可信度和通用性能:在保持模型輸出信息量的情況下,RLHF-V 在幻覺評測中超越現有的開源多模態大模型,甚至抵抗“過泛化”的效果超越 GPT-4V

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

論文地址:

??https://arxiv.org/abs/2312.00849??

項目主頁:

??https://rlhf-v.github.io??

DEMO:

??http://120.92.209.146:8081??


01 效果展示:RLHF-V方法有效減少“幻覺”問題

?

將使用 RLHF-V 方法訓練后的模型與 InstructBLIP、LLaVA-RLHF、GPT-4V 模型在相同視覺問答 (VQA,Visual Question Answering)任務下的表現進行比較,結果如下:


測試效果1:在短回復問題上,RLHF-V 模型能夠給出正確且簡練的回復。


CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 在短回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。


可以看到,當用戶提問:“圖片中的男人正在干什么?”時,RLHF-V 模型正確地答出圖中的人在“豎大拇指”。InstructBLIP 也給出正確回答,即圖中的人在接電話。而 LLaVA-RLHF 的過長回答里包含多條事實錯誤,GPT-4V 的短回答里正確與錯誤信息參半出現。


測試效果2:在更容易產生“幻覺”的長回復問題上,RLHF-V 模型提供的回復可信度高,且包含充足有效信息。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 在長回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺。


用戶提問“你覺得這張照片里發生了什么?”,RLHF-V 模型和 GPT-4V 都在盡可能通過圖片細節正確地描述場景,而 InstructBLIP 和 LLaVA-RLHF 的回答里則包含多處事實“幻覺”。


測試效果3:在減少多模態大模型因過泛化產生的 “幻覺”問題上,RLHF-V 的表現超過 GPT-4V。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 長回復問題中,RLHF-V 與 GPT-4V 在“過泛化”現象上的對比,其中紅色部分為幻覺,深紅色部分為“過泛化”導致的場景相關的幻覺。


當用戶提出“對給定圖片進行詳細描述”時,GPT-4V 的回答產生了與圖片中廚房場景高度相關的過泛化“幻覺”答案,如 “排風扇”、“盤子架” 等,而 RLHF-V 則沒有出現場景相關的物體幻覺。

02 關鍵創新:細粒度偏好標注與稠密對齊方法

RLHF-V 包含兩項創新方法:數據層面,應用基于人工修改的細粒度偏好對齊數據;算法層面,采用稠密監督信號的 DDPO 算法。

基于修改的細粒度偏好對齊數據

在數據標注時,通過人工修改多模態大模型輸出回復的方式,得到細粒度的人類偏好對齊數據。這種標注方式相比傳統基于排序的數據收集方式具有三點顯著優勢:


第一,回答更準確:基于排序的偏好數據在訓練正例中仍然可能包含幻覺,例如下圖中對時鐘具體時間的識別,包括 GPT-4V 在內的模型都頻繁出現錯誤,而人工修改的答案能夠保證訓練正例準確無誤,極大提高多模態偏好數據的質量。


第二,無歧義的回答偏好判斷:關于豐富圖像內容的優質回答一般長而復雜,標注人員對這些回答進行優劣排序的過程是困難的,但如果使用 RLHF-V 提出的人工修改方法,只需找出并修改回答中的錯誤語句,因優劣排序而帶來的標注歧義問題就會迎刃而解。


第三,提供細粒度監督信號:由于 RLHF-V 同時也提供了細化到短語級別的人類偏好數據,所以能夠更加精準地鼓勵或懲罰模型表現,對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 細粒度偏好對齊數據標注過程示意圖


目前,我們利用這一方法在 LLaVA、InstructBLIP、Qwen-VL-Chat 等 5 個模型輸出上標注了總計 5.7K 高質量偏好對齊數據,該數據已經開源至 Hugging Face。

稠密監督信號的 DDPO 算法

模型“幻覺”的產生很大程度源于人類 “正/負反饋” 的缺失,從而使模型表現偏離人類偏好。在算法層面,緩解模型“幻覺”可以從采用偏好對齊算法入手。目前應用最廣的人類偏好對齊算法有兩種:近端策略優化(PPO,Proximal Policy Optimization)和直接偏好優化(DPO,Direct Preference Optimization)。


雖然新提出的 DPO 有資源消耗更低、訓練更穩定的優勢,但作為一個回復級別的算法,DPO 無法直接鼓勵或懲罰回復中的細粒度行為。基于此,研究團隊提出了 DPO 的“強化版”——DDPO(Dense-DPO)算法,即提高修改片段的優化權重,讓模型著重學習人工修改過的語句部分,以更加充分地利用標注數據中的細粒度信息對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 稠密監督 DDPO 算法示意圖


03 實驗驗證和結果

?

首先,RLHF-V 在長回復與短回復任務上模型幻覺均顯著下降,且通用性能不受損失。


為了對模型進行幻覺評測,研究團隊測試了模型在長回答指令和短回答指令下的幻覺比例情況,前者需要詳細描述圖片內容,后者只需簡短回答圖片相關問題。與此同時,為了評估模型的通用性能,研究團隊還分別測試了模型在開放對話(LLaVA Bench)與圖片問答(VQAv2)上的性能表現。


實驗結果表明:RLHF-V 在幻覺評測指標上超越了已有的開源多模態大模型,且能夠在顯著減小幻覺的情況下,保持模型優秀的通用性能

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 與其他開源模型及 GPT-4V 在幻覺比例和通用性能上的對比


第二,RLHF-V 解決“過泛化” 問題的表現優于 GPT-4V。


為了評測模型在“過泛化”問題上的表現,作者選擇了多模態指令數據中的 4 個典型場景,以及最常出現在每個場景中的 10 個常見物體類別(COCO 物體類別),統計這些物體在所有條目中的幻覺率,以及在對應場景下的幻覺率。


實驗結果表明,包括 GPT-4V 在內的現有 MLLM,均有明顯“過泛化”傾向,而 RLHF-V 模型“過泛化”傾向最低

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 與其他開源模型及 GPT-4V 在“過泛化”問題上的效果對比


第三,細粒度對齊數據在訓練中具有高效性以及規模效應。


數據集規模對模型性能的影響也是非常重要的評測方向。從實驗結果來看,相比基于排序的偏好數據,采用細粒度修改標注能夠在 1/10 的數據規模下達到相近的模型效果。同時,隨著數據量增加,模型幻覺率顯著降低

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 數據的規模效應曲線

04 方法應用

?

實際上,將 RLHF-V 數據和方法用于調整 LLaVA 等其他多模態大模型,也可以有效降低模型“幻覺”的出現次數,提高模型回答可信度。近期研究團隊應用 RLHF-V 方法訓練的開源模型 OmniLMM-12B 在多模態綜合能力上達到開源模型頂尖水平,并且在多模態幻覺評測指標中顯著超越其他開源模型效果

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

在未來,研究團隊也將繼續在多模態大模型算法及數據領域進行研究,助力開源多模態大模型向成熟應用的轉變。


作者團隊簡介


清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)是國內最早開展大模型研究、最具影響力的科研單位之一。


THUNLP 多模態大模型方向深度探索通用多模態大模型的技術體系,研究內容包括通用多模態基礎大模型構建、多模態大模型對齊、多模態大模型評測等。研究團隊已在多模態大模型研究方面取得多項前沿成果,相關成果發表在國際人工智能頂級會議上。其中基于跨語言跨模態泛化技術構建的中英雙語多模態大模型 VisCPM 被 ICLR 2024 收錄為 Spotlight 論文;多模態大模型對齊算法 RLHF-V 被 CVPR 2024 收錄;端側大模型 MiniCPM-V 發布一個月內在開源平臺下載量超 3 萬次。


如果你熱衷于探索大模型技術前沿,對多模態大模型研究充滿熱情,歡迎加入我們!無論期望在公司實習,還是在實驗室作為訪問學者,我們都會為你提供理想的工作環境和成長空間。


論文地址:https://arxiv.org/abs/2312.00849

項目主頁:https://rlhf-v.github.io

DEMO:??http://120.92.209.146:8081?


本文轉自 PaperWeekly ,作者:讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/3iHewRj_IIgor_SIedbWjA??

標簽
收藏
回復
舉報
回復
相關推薦
好吊色一区二区| 欧美特级一级片| 欧美亚洲韩国| 中文字幕一区二区三区视频| 亚洲精品欧美一区二区三区| 久久国产精品系列| 99热在线成人| 亚洲另类欧美自拍| 色姑娘综合天天| 91av亚洲| 亚洲国产综合人成综合网站| 日韩av电影免费观看| 国产欧美一级片| 久久免费高清| 欧美激情亚洲国产| 日韩av网站在线播放| 国产色噜噜噜91在线精品| 欧美亚洲高清一区| 免费看欧美黑人毛片| av在线电影免费观看| 国产91丝袜在线播放| 日韩精品欧美| 一区二区不卡在线播放 | 欧美激情在线观看| 国产aaaaaaaaa| 群体交乱之放荡娇妻一区二区| 91精品国产综合久久久久久漫画| 日韩一级在线免费观看| 好久没做在线观看| 亚洲天堂成人在线观看| 日韩国产精品一区二区| 天堂av资源在线| 国产福利一区二区三区视频在线| 国产精品视频1区| 日本道在线观看| 亚洲精品日本| 国内精品久久久久久久| 青青草手机在线视频| 日韩欧美高清在线播放| 亚洲性69xxxbbb| 毛片网站免费观看| 首页亚洲中字| 亚洲精品在线视频| 中文字幕一区二区三区人妻不卡| 精品精品国产毛片在线看 | 性感美女一级片| 岛国精品在线观看| 国产欧美日韩亚洲| 日韩中文字幕免费观看| 99视频有精品| 久久久水蜜桃| 日韩porn| 国产日韩精品久久久| 欧美人与性禽动交精品| 你懂的视频在线免费| 久久久久国产免费免费| 欧美一级片免费观看| 九九在线视频| 日本一区二区久久| 一区二区三区偷拍| 大片免费在线看视频| 一区二区三区精品久久久| 久久人妻无码一区二区| 日本高清成人vr专区| 亚洲国产成人tv| 97国产精东麻豆人妻电影| 日本在线影院| 欧美视频在线播放| 亚洲三级在线观看视频| 伊人久久噜噜噜躁狠狠躁| 欧美精品一区二区三区蜜桃| 亚洲一区二区乱码| 免费成人网www| 日韩在线视频免费观看| 午夜国产福利一区二区| 亚洲国内欧美| 国产精品白嫩美女在线观看 | 黄色录像一级片| 欧美激情亚洲| 日韩av成人在线| 少妇又紧又色又爽又刺激视频| 精品一区二区在线播放| 99在线看视频| 国产日本在线视频| 亚洲黄色免费网站| 欧美污视频网站| 亚洲欧美专区| 亚洲精品午夜精品| 91香蕉一区二区三区在线观看| 欧美精选在线| 国产精品69久久| jizz国产视频| 久久久国际精品| 亚洲精品国产suv一区88| 色老头在线一区二区三区| 欧美日韩免费观看一区二区三区 | 久久精品国产亚洲5555| 中文字幕亚洲无线码a| 麻豆成人在线视频| 日韩成人精品在线观看| 国产91一区二区三区| 国产在线观看黄| 亚洲成人资源网| 欧美国产日韩另类| 亚洲宅男网av| 欧美日韩第一视频| 欧美三级网站在线观看| 成人成人成人在线视频| 亚洲一区影院| 欧美成人h版| 欧美va在线播放| 天堂а√在线中文在线鲁大师| 一本久道久久久| 亚洲xxx自由成熟| av影片免费在线观看| 亚洲成人在线观看视频| 日本高清一区二区视频| 教室别恋欧美无删减版| 91精品91久久久久久| 国产成人精品一区二三区四区五区 | 欧美视频综合| 亚洲成人在线免费| 中文字幕第三区| 成人羞羞视频播放网站| 欧美在线视频在线播放完整版免费观看 | 天天鲁一鲁摸一摸爽一爽| 亚久久调教视频| 国产乱子伦精品| 色呦呦在线看| 日韩欧美成人一区二区| 日韩欧美123区| 国产最新精品免费| 一区二区日本伦理| 成人免费黄色| 永久555www成人免费| 日韩精品在线观看免费| jvid福利写真一区二区三区| 97超碰国产精品| 亚洲精品黑牛一区二区三区| 久久人人爽人人爽人人片亚洲 | 蜜臀av亚洲一区中文字幕| 欧美日韩在线一二三| 中文字幕黄色片| 手机av在线免费观看| www国产成人免费观看视频 深夜成人网| 日本黄网站色大片免费观看| 自拍偷拍亚洲图片| www.日韩免费| 国产精品视频无码| 亚洲精品日日夜夜| 老司机av网站| 激情视频一区| 久久国产欧美精品| 日本成人三级电影| 在线视频一区二区| 一卡二卡三卡在线| 亚洲男人的天堂在线观看| 亚洲一区二区三区三州| 国产在线日韩| 久久久久成人精品免费播放动漫| 五月天av在线| 日韩精品亚洲视频| 欧美成人一区二区视频| 国产精品伦理在线| 色哟哟免费视频| 亚洲免费黄色| 欧美一区二区视频在线| 欧美黄色成人| 欧美激情videoshd| 日韩精品福利| 欧美日韩免费不卡视频一区二区三区 | 亚洲一区有码| 久精品免费视频| 无码国精品一区二区免费蜜桃| 色老综合老女人久久久| 天美传媒免费在线观看| 国产精品2024| 无码人妻丰满熟妇区毛片18| 欧美在线色图| 97人人模人人爽视频一区二区| 色偷偷中文字幕| 欧美日韩破处| 国产精品欧美日韩| 亚洲精品白浆| 亚洲欧美制服中文字幕| 国产又黄又猛又爽| 亚洲18女电影在线观看| 天天舔天天操天天干| 国产精品亚洲第一| 37pao成人国产永久免费视频| 日韩一区二区在线免费| 国产精品日韩欧美一区二区| 成人啊v在线| 九九综合九九综合| 国模精品一区二区| 日韩一级免费观看| 国产免费www| 亚洲国产中文字幕在线视频综合| 波多野结衣片子| 国产.精品.日韩.另类.中文.在线.播放 | 国产美女精品免费电影| heyzo高清在线| 在线看日韩欧美| 欧美综合视频在线| 制服.丝袜.亚洲.另类.中文| 久久久久久少妇| 一区二区三区av电影| 国产真人做爰视频免费| 成人美女视频在线观看| 欧美一级xxxx| 石原莉奈在线亚洲二区| 国产一区二区片| 国产精品不卡| 日本午夜一区二区三区| 91午夜精品| 亚洲影视九九影院在线观看| 成人涩涩视频| 欧美中文字幕精品| 精产国品一区二区三区| 亚洲制服欧美另类| 国产高清精品一区二区三区| 欧美美女福利视频| 国产福利精品视频| 亚洲女同志freevdieo| 欧美人与物videos| 国内精品久久久久久野外| 亚洲视频免费一区| 神马久久久久| 福利一区二区在线| 亚洲精品久久久久久宅男| 校园激情久久| 超碰成人免费在线| 亚洲欧美文学| 黄色一级视频播放| 日韩国产欧美一区二区| 日本精品视频一区| 夜夜春成人影院| 精品国产乱码久久久久久久软件| 视频一区日韩精品| 亚洲一区二区三区在线视频| 国产黄色一区| 国产精品一区二区三区成人| 欧美日一区二区三区| 国产成人一区二区三区小说 | 国产精品扒开腿做爽爽爽男男| 久草在线资源福利站| 午夜精品久久久久久久久久久久久 | 久久综合网色—综合色88| 国产又黄又粗又猛又爽的视频 | 日韩av电影天堂| 亚洲三级视频网站| 青青青伊人色综合久久| 爱情岛论坛成人| 久久国产生活片100| а 天堂 在线| 国产高清久久久| 中文字幕第3页| 91麻豆成人久久精品二区三区| 国产制服丝袜在线| 国产欧美一区二区在线| 精品人体无码一区二区三区| 国产精品国产三级国产aⅴ原创 | 国产日本在线视频| 中文字幕在线看视频国产欧美| 亚洲图片88| 中文字幕不卡在线观看| 91黄在线观看| 91成人精品在线| 久久波多野结衣| 国产欧美一区| 法国空姐在线观看免费| 国产主播一区| 男人舔女人下面高潮视频| 蜜桃视频在线一区| 亚洲欧洲国产视频| 久久色在线视频| 亚洲国产123| 午夜久久久久久久久久一区二区| 国产精品人人人人| 欧美日韩一级片网站| av片免费播放| 亚洲人成网站999久久久综合| 视频一区二区三区不卡| 久久久久九九九九| 电影亚洲精品噜噜在线观看 | 日本免费精品| 久久99精品久久久久久三级| 精品一区二区三| 欧美黄网在线观看| 水野朝阳av一区二区三区| 一起操在线视频| 日本最新不卡在线| www.啪啪.com| 国产精品第四页| 亚洲日本韩国在线| 3d动漫精品啪啪一区二区竹菊| 亚洲狼人综合网| 最近2019中文字幕在线高清 | 一区二区欧美在线观看| 黄色av网站免费| 亚洲精品一区二区三区蜜桃下载| 国产高清在线看| 97国产在线视频| 青草伊人久久| 污视频在线免费观看一区二区三区| 国语对白精品一区二区| 亚洲天堂2018av| 久久综合九色综合欧美就去吻 | 欧美日韩成人| 亚洲五月天综合| 成人久久视频在线观看| 操她视频在线观看| 一本久久a久久免费精品不卡| 性网爆门事件集合av| 日韩一区av在线| 在线国产成人影院| 麻豆91av| 亚洲激情欧美| av在线天堂网| 亚洲人成网站色在线观看| 精品成人无码久久久久久| 亚洲高清在线观看| 青春草视频在线观看| 91色精品视频在线| 欧美残忍xxxx极端| 超碰在线97免费| 国产日韩欧美精品在线| 亚洲永久精品在线观看| 日韩电视剧免费观看网站| 欧美6一10sex性hd| av色综合网| 这里只有精品在线| 污污的视频免费观看| 国产精品色呦呦| 一区二区视频免费观看| 一区二区三区www| 中文av在线全新| 麻豆蜜桃91| 羞羞答答国产精品www一本| 少妇饥渴放荡91麻豆| 精品久久久久久久久久久久久久| 亚洲精品一区二区三区新线路| 欧美精品性视频| 综合激情五月婷婷| www.国产在线播放| 97久久超碰国产精品电影| 日韩激情在线播放| 日韩风俗一区 二区| 水蜜桃在线视频| 热re99久久精品国99热蜜月| 三级在线观看一区二区| 欧美人与性囗牲恔配| 欧美日韩色一区| 大地资源网3页在线观看| 91gao视频| 在线精品一区| 亚洲国产综合视频| 在线区一区二视频| 麻豆传媒视频在线| 147欧美人体大胆444| 精久久久久久| 在线免费观看成年人视频| 91黄色小视频| 麻豆视频在线观看免费网站| 1卡2卡3卡精品视频| 今天的高清视频免费播放成人| 在线观看av中文字幕| 91成人看片片| 看女生喷水的网站在线观看| 91精品久久香蕉国产线看观看| 影音先锋久久精品| 久久丫精品忘忧草西安产品| 欧美日韩黄色一区二区| 尤物视频在线看| 久久视频在线观看中文字幕| 日本不卡在线视频| 美女的奶胸大爽爽大片| 日韩电影中文字幕在线| 欧洲精品久久久久毛片完整版| 穿情趣内衣被c到高潮视频| 99这里都是精品| 亚洲天堂网视频| 欧美精品www| 欧美一级精品| 催眠调教后宫乱淫校园| 91高清视频在线| 人妖欧美1区| 午夜精品一区二区三区四区 | 黄黄的网站在线观看| 韩国一区二区三区美女美女秀| 日本视频免费一区| 国产黄色片视频| 久久精品成人欧美大片| 欧美在线关看| 中文字幕国产高清| 欧美性生活大片免费观看网址 | 欧美亚洲国产成人精品| 91精品秘密在线观看| 日本高清www| 欧美xxxxx牲另类人与|