精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

人工智能 新聞
本研究提出了MM-RLHF,一個高質量、細粒度的數據集,專門用于推動多模態大語言模型(MLLMs)的對齊工作。

盡管多模態大語言模型(MLLMs)取得了顯著的進展,但現有的先進模型仍然缺乏與人類偏好的充分對齊。這一差距的存在主要是因為現有的對齊研究多集中于某些特定領域(例如減少幻覺問題),是否與人類偏好對齊可以全面提升MLLM的各種能力仍是一個未知數。

快手,中科院,南大合作從三個層面入手推動MLLM alignment的發展,包括數據集,獎勵模型以及訓練算法,最終的alignment pipeline使得不同基礎模型在10個評估維度,27個benchmark上都取得了一致的性能增益,比較突出的是,基于本文提出的數據集和對齊算法對LLaVA-ov-7B模型進行微調后, conversational能力平均提升了19.5%,安全性平均提升了60%。

偏好數據,訓練算法,模型以及評估pipeline均已全面開源。

該方法在twitter上也引起了熱議,被評為多模態alignment的game-changers

主要貢獻:

  1. 新數據集:本文引入了一個包含120k精細標注的偏好比較對的數據集,包含三個維度的打分,排序,文本描述的具體原因以及平局等標注,所有標注由人類專家完成,一共50名標注人員,8名專家,耗時兩個月。與現有資源相比,這一數據集在規模、樣本多樣性、標注粒度和質量等方面都有顯著提升。
  2. 創新的獎勵模型:提出了基于批評的獎勵模型(Critique-Based Reward Model),該模型首先對模型輸出進行批評,然后再進行評分。這一方法相比傳統的標量獎勵機制,提供了更好的可解釋性和更有信息量的反饋,基于該方法的模型只需要7B size,在reward model benchmark就明顯優于現有公開的72B-size的MLLM。
  3. 動態獎勵縮放:提出了動態獎勵縮放(Dynamic Reward Scaling)方法,通過根據獎勵信號調整每個樣本的損失權重,優化了高質量比較對的使用,進一步提高了數據的使用效率。
  4. 全面評估:本文在10個維度和27個基準上對提出的方案進行了嚴格評估,同時構造了一個reward model的benchmark以及safety相關的benchmark來彌補現有benchmark的不足,結果顯示,在各個方面均取得了顯著且一致的性能提升。

MM-RLHF人類偏好數據

數據來源: 圖像數據來源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,總共10M,視頻數據來源主要是SharedGPT-4-video,安全性相關的數據來源主要包括 VLGuard 和自構造內容。

數據過濾與模型響應生成, 通過預定義的多選題,長文本等類別均勻采樣,確保少數類也有足夠的樣本。同時采用了knn聚類并采樣的策略,保證數據的diversity。響應生成使用到了Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet等最先進的MLLM。

數據標注: 主要包含三個維度,有用性,真實性,倫理性,同時標注人員需要提供打分的依據,最終排名以及排名的依據,標注粒度細,通過專家定期進行質量檢查和互動評審保證標注質量。

MM-RLHF獎勵模型

標準獎勵模型通常通過預訓練的LLM,并用線性獎勵頭替換原有頭部,以輸出一個標量獎勵值。然而,這些模型難以充分利用人類注釋中的豐富信息,也不具備足夠的透明性。

為了解決標準獎勵模型的局限性,本文提出了一種基于批評的訓練框架。在這個框架中,模型首先生成批評(對響應的分析和評估),然后基于批評來打分。批評生成部分與打分部分共同作用,確保了更細致的評價。

增強注釋以提高批評質量:由于人工注釋往往簡潔且精煉,直接使用它們作為訓練目標效果有限。因此,本文通過GPT-4o增強人工注釋,使其更為詳細和流暢,從而提高批評的質量。

在訓練過程中,批評的生成與獎勵頭的訓練同時進行,在訓練獎勵頭時采取了teacher-forcing的策略,即采用了ground truth的批評作為輸入,默認損失權重都為1。測試階段先生成批評,然后基于批評得出最終得分。

性能評估


該模型框架簡單,且在多個基準測試中的表現與GPT-4o相媲美,甚至超越了許多開源模型,表現出色,尤其在自定義基準測試中,其表現遠超GPT-4o,這驗證了其作為訓練算法獎勵信號的有效性。

表4中也展示了,當獎勵頭直接使用偏好數據集進行訓練時,模型的ACC+穩定在50%左右。然而,當引入人工注釋作為學習目標時,ACC+穩定提升了5%。進一步通過GPT-4o擴展人工注釋,生成更加詳細和流暢的批評,最終提高了ACC+達17%。當評估時直接使用人工批評時,ACC和ACC+均接近90%,表明評估質量對獎勵模型效果的至關重要性。

MM-DPO:有效利用高質量偏好數據

要有效利用MM-RLHF中的高質量數據,有以下的實驗發現和技巧:

MM-DPO不再僅僅關注“最難的比較對”(即排名差異最大的一對),而是將一個查詢下所有可能的響應對都納入訓練。具體來說,對于一個查詢 ,如果有多個響應,每一對具有不同排名的響應都被視為一個有效的比較對。這種全面的處理方式可以捕捉更細粒度的排序信息,讓模型從更廣泛的偏好數據中學習。然而,這種策略也帶來了新的挑戰:當響應對的排名差異較小時(例如排名 3 和排名 4 的比較),其獎勵差距(reward margin)往往較小,而排名差異較大的響應對(例如排名 1 和排名 4 的比較)包含的信息質量更高。如果對所有樣本對一視同仁,會導致高置信度的信息被低效利用。

為了解決這個問題,MM-DPO 引入了動態獎勵縮放(Dynamic Reward Scaling)機制,根據獎勵差距動態調整更新強度,優先利用高置信度的樣本對。

具體而言,獎勵模型可以自然地為樣本對提供獎勵差距(reward margin),這為動態控制樣本的更新權重提供了一個直接的信號。

本文采用MM-RLHF-Reward-7B模型來計算獎勵差距  其中  和 

DPO中,動態縮放因子 

其中: 是初始默認縮放因子; 是一個參數,用于平衡動態部分的貢獻; 是一個可調超參數,控制 隨著的變化速度。

接下來只需要將DPO算法中的部分替換為動態的即可。

MM-DPO在各類benchmark上都表現出了不錯的性能增益,而且其對于超參數并不是非常敏感,大多數情況下都能使得高質量pair的利用效率得到明顯提升。

27個評估標準,10種評估維度的綜合評估

主要領域包括圖表與文檔理解、OCR、幻覺檢測、數學推理、通用知識、多模態對話、高分辨率與真實世界應用、視頻理解、多圖像處理以及多模態安全性。其中,多模態安全性基準 MM-RLHF-SafeBench 是自構建的,涵蓋對抗攻擊、越獄攻擊、隱私保護和有害內容生成等場景,重點評估模型的安全性與魯棒性。這些數據集為模型的多方面性能提供了詳盡的測試環境。

上面兩圖展示了使用本文提出的數據集和對齊算法,LLaVA-OV-7B、LLaVA-OV-0.5B和InternVL-1B在不同維度上的對齊表現,其中每個評估維度的得分在相應的基準上進行了平均。

會話能力和安全性的顯著提升:實驗結果表明,通過對齊過程,這兩個方面的表現得到了顯著改進,無需調整超參數。在會話基準中,平均提高超過10%,而不安全行為減少了至少50%。此外,在WildsVision任務中,勝率至少提高了50%。

在幻覺、數學推理、多圖像和視頻理解方面的廣泛提升:對齊后的模型在這些領域表現出顯著的提升。有趣的是,盡管數據集中缺乏專門的多圖像數據,模型在多圖像任務中的表現依然顯著提升。這表明數據集的多樣性有助于模型在多個維度上進行更好的泛化。

模型對數據和超參數的偏好差異:不同模型在對齊過程中表現出不同的性能趨勢,并且在不同基準上對超參數設置的偏好也各不相同。例如,在對InternVL-1B的訓練中,發現排除SFT損失函數反而帶來了更好的結果。此外,雖然InternVL-1B在常識知識任務中表現出顯著改進,但在OCR任務中的相對提升不如LLaVA-OV系列。這些差異主要源自模型預訓練數據集和策略的不同,因此需要根據具體模型對超參數進行定制化調整以獲得最佳對齊效果。

小規模的MLLMs很難自我提升


盡管近年來有研究探索了MLLM的自我提升概念,但這些努力主要集中在特定領域,比如對話系統。在這一部分,團隊提出了與LLM領域不同的觀點,認為小規模的MLLM(參數少于7B)目前在通過自我提升實現全面性能提升方面面臨重大挑戰。實驗結果,如上所示,可能有兩個主要原因:

模型容量的限制: 對于涉及長文本或對話數據的任務,采樣多個響應通常會生成至少一個相對較好的答案,從而進行DPO有可能導致性能明顯提高。然而,對于更具挑戰性的任務,如多項選擇題或科學推理任務,小模型即使經過大量采樣,也難以生成正確答案。在實驗中,當最大采樣數量達到八時,觀察到在某些具有挑戰性的多項選擇題中,模型生成了相同的錯誤答案,或者在所有樣本中一致地產生錯誤輸出。

獎勵信號質量的局限性: 目前大多數現有的多模態獎勵模型是在有限多樣性的訓練數據集上訓練的,如VLFeedback和LLaVA-RLHF。這些數據集主要關注自然圖像、人類對話或相關場景,容易引發過擬合問題。當偏好數據集包含更廣泛的領域(如數學推理、圖表理解或其他專業領域)時,在現有數據集上訓練的獎勵模型無法提供有效的獎勵信號。因此,識別和選擇更好的樣本變得困難。

這兩個局限性使得目前的MLLMs很難在多樣化的數據集上生成響應、使用獎勵模型對其進行注釋并通過自我提升循環進行迭代改進,盡管在LLM對齊中取得了類似的進展。實驗確認,更好的獎勵模型可以帶來邊際改進,但這些結果仍遠不如使用高質量人工注釋對比樣本進行訓練的效果。

未來可能的研究方向

本研究提出了MM-RLHF,一個高質量、細粒度的數據集,專門用于推動多模態大語言模型(MLLMs)的對齊工作。與以往專注于特定任務的研究不同,提出的數據集和對齊方法旨在全面提升多個維度的性能。即使在獎勵建模和優化算法方面僅進行了初步改進,在幾乎所有評估基準上都觀察到了顯著且持續的提升,強調了綜合性對齊策略的潛力。

展望未來,可以看到進一步挖掘本數據集價值的巨大機會。數據集的豐富注釋粒度,如每個維度的分數和排名理由,在當前的對齊算法中仍未得到充分利用。未來的工作將重點關注利用這些粒度信息與先進的優化技術,結合高分辨率數據來解決特定基準的局限性,并使用半自動化策略高效地擴展數據集。

團隊相信,這些努力不僅將推動MLLM對齊到新的高度,還將為更廣泛、更具普適性的多模態學習框架奠定基礎。

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-15 12:14:02

ChatGPT語音模型

2025-05-09 08:40:00

2019-01-16 15:21:12

中科院大數據數據庫

2025-07-21 08:51:00

2025-05-28 09:17:00

端到端模型視覺

2025-03-11 13:49:20

2024-11-04 13:30:00

模型AI

2023-04-18 10:12:06

模型解碼

2024-12-31 09:10:00

2025-02-08 13:30:00

2023-06-28 13:55:30

模型AI

2025-09-08 09:35:15

2025-06-24 11:50:37

模型數據開源

2025-11-20 12:51:07

2025-09-22 09:25:08

2024-06-05 09:22:43

2025-01-08 08:21:16

2025-06-09 09:32:35

點贊
收藏

51CTO技術棧公眾號

欧美亚洲综合视频| 国产高清视频免费| 欧美一区二区三区高清视频| 欧美午夜寂寞影院| 久久av秘一区二区三区| 色综合免费视频| 日韩电影免费在线| 九色精品美女在线| 国产精品揄拍100视频| 日韩av黄色| 狠狠爱在线视频一区| 亚洲一区二区三区精品动漫| 亚洲乱色熟女一区二区三区| 三级精品在线观看| 欧美精品在线免费| 高清国产在线观看| 国产精品自在线拍| 欧美日本在线视频| 91av资源网| av网站导航在线观看免费| 久久麻豆一区二区| 91原创国产| 一级片在线免费播放| 亚洲高清免费| www国产91| 四虎永久免费在线观看| 91麻豆精品激情在线观看最新| 在线精品视频小说1| www成人免费| 男人天堂久久久| 久久久99久久| 精品欧美日韩在线| 亚洲第一成年人网站| 精品一区二区三区在线播放 | 91传媒理伦片在线观看| 韩日精品一区| 一本色道久久综合亚洲aⅴ蜜桃| 最新视频 - x88av| 在线看的av网站| 国产偷国产偷亚洲高清人白洁| 国产一区二区高清视频| 午夜美女福利视频| 国产一区免费电影| 成人黄色大片在线免费观看| 亚洲高清视频免费观看| 另类图片国产| 欧美一区二区三区免费观看| 一区二区三区视频免费看| 欧美日韩一区自拍| 久99久在线视频| 国产精品视频一区二区三| 欧美gayvideo| 日韩最新免费不卡| 国产又粗又猛又爽又黄的视频小说| 国产99久久精品一区二区300| 亚洲精品videossex少妇| 国产免费a级片| 91麻豆精品激情在线观看最新| 日韩午夜激情视频| 一区二区三区人妻| 中文字幕一区二区三区四区久久| 91精品国产综合久久蜜臀| 欧美日韩一区二区三区69堂| 精品久久久网| 91精品一区二区三区在线观看| 色噜噜狠狠一区二区| 国产综合色激情| 欧美情侣在线播放| 久久精品国产99久久99久久久| 国产精品亚洲一区二区在线观看| 日韩一区国产二区欧美三区| 欧美一区二区三区影院| 超碰精品在线观看| 亚洲精品91美女久久久久久久| 国产精品福利导航| 国产91精品对白在线播放| 国产亚洲精品日韩| 国产午夜精品理论片| 欧美一区91| 97视频色精品| 精品国产乱子伦| 美女网站视频久久| av一区和二区| 色视频免费在线观看| 欧美国产精品久久| 特级西西444| www.九色在线| 欧美在线免费播放| 久久久九九九热| 欧美色图婷婷| 少妇高潮久久77777| 久久国产精品波多野结衣| 一区二区毛片| 成人午夜高潮视频| 亚洲 国产 欧美一区| 人妻视频一区二区三区| 久久综合给合久久狠狠狠97色69| 天天综合狠狠精品| 影音先锋在线视频| 一本大道久久a久久精二百| 亚洲这里只有精品| 国产成人一二| 色偷偷噜噜噜亚洲男人的天堂| 久久久综合久久久| 日精品一区二区三区| 亚洲tv在线观看| 日av在线播放| 一个色在线综合| 天天天干夜夜夜操| jizz性欧美2| 在线观看欧美www| 国产污视频在线看| 久久综合综合久久综合| 久久手机视频| 最新日本在线观看| 欧美偷拍一区二区| 亚洲久久久久久| 欧美1区2区| 国产精品视频大全| 天堂av在线资源| 一区二区三区在线看| 国产wwwxx| 欧美电影在线观看完整版| 久久偷看各类女兵18女厕嘘嘘| 亚洲天堂视频网站| 岛国精品一区二区| 色一情一乱一乱一区91| 日本综合视频| 亚洲跨种族黑人xxx| 国产一级理论片| 国产一区二区三区综合| 偷拍视频一区二区| 国产伦精品一区二区三区视频金莲| 欧美成人乱码一区二区三区| 欧洲美女女同性互添| 日韩高清国产一区在线| 麻豆精品蜜桃一区二区三区| 国产精品69xx| 日韩久久免费av| 日本爱爱小视频| 免费在线观看精品| 青青草成人激情在线| 亚洲十八**毛片| 亚洲精品成人久久久| 懂色av.com| 成人aa视频在线观看| 欧美大黑帍在线播放| 日韩精品视频一区二区三区| 久久精品成人动漫| 国产又粗又大又爽| 亚洲视频免费看| 亚洲精品mv在线观看| 亚洲精品888| 91精品视频播放| 精品自拍一区| 这里只有精品99re| 蜜臀久久精品久久久用户群体| 激情文学综合丁香| 日本精品福利视频| 9l视频自拍九色9l视频成人| 欧美极品在线播放| 天堂成人在线视频| 色欧美片视频在线观看| 精品无人区无码乱码毛片国产| 久久性色av| 亚洲国产精品综合| 四虎影视国产精品| 欧美成在线视频| 日日躁夜夜躁白天躁晚上躁91| 五月婷婷激情综合网| free性中国hd国语露脸| 日韩不卡在线观看日韩不卡视频| 亚洲精品一区二区三区樱花| 伦一区二区三区中文字幕v亚洲| 久久精品视频网站| 亚洲狼人综合网| 色综合久久综合| 娇小11一12╳yⅹ╳毛片| 国产一区二区三区免费在线观看| 国产aaa免费视频| 亚洲精品蜜桃乱晃| 国产在线观看不卡| 91色在线看| 伊人伊成久久人综合网站| 99热这里只有精品5| 亚洲高清在线精品| 国产jk精品白丝av在线观看| 激情五月播播久久久精品| 国产精品国产对白熟妇| 国产a久久精品一区二区三区| 成人免费看黄网站| 美女高潮在线观看| 色妞欧美日韩在线| 国产成人手机在线| 欧美三级韩国三级日本三斤| 久久精品视频免费在线观看| 91在线你懂得| 天堂av在线8| 国产精品久久国产愉拍| 大桥未久一区二区| 香蕉久久夜色精品国产使用方法| 国产拍精品一二三| a毛片不卡免费看片| 日韩在线视频二区| 亚洲色图另类小说| 91精品福利在线一区二区三区 | 午夜电影网亚洲视频| 亚洲综合欧美综合| 99久久久久久| 91香蕉国产线在线观看| 天堂蜜桃一区二区三区| 欧洲精品在线播放| 国产精品x453.com| 青青影院一区二区三区四区| 91欧美日韩在线| 国产综合久久久久久| 韩日成人影院| 久久久亚洲精选| 精品国产99久久久久久| 亚洲最新av在线网站| 四虎免费在线观看| 日韩欧美一级片| 亚洲一区二区三区高清视频| 色综合一个色综合亚洲| 国产在线视频二区| 亚洲欧美日本韩国| 五月激情四射婷婷| 久久精品欧美一区二区三区不卡| 亚洲欧美综合视频| 国产精品亚洲午夜一区二区三区| 中文字幕永久视频| 老司机午夜精品视频在线观看| 人妻av中文系列| 国产精品www.| 黄色一级视频播放| 婷婷综合在线| 亚洲一区三区电影在线观看| 日韩成人a**站| 欧美日韩中文国产一区发布 | 日韩激情视频在线| 亚洲欧美高清视频| 日韩欧美电影在线| 国产99对白在线播放| 欧美精选一区二区| 一级片aaaa| 精品视频一区二区不卡| 麻豆国产一区二区三区四区| 欧美在线视频免费播放| 国产白浆在线免费观看| 欧美激情精品久久久久久蜜臀| 秋霞影院午夜丰满少妇在线视频| 一区二区成人精品| 国产三级在线免费观看| 国产一区二区三区四区福利| 黄色在线网站| 国产一区二区三区在线观看网站 | 欧美肥妇毛茸茸| 国产免费不卡视频| 日韩一二三区不卡| 国产成人手机在线| 日韩高清免费观看| 毛片在线播放网址| 一个人www欧美| 免费的黄网站在线观看| 久久精品视频在线| 美足av综合网| 97成人超碰免| 亚洲1234区| 国产精品综合不卡av| 国产精品高清一区二区| 亚洲在线观看视频| gogo人体一区| 欧美亚洲爱爱另类综合| 日韩av在线中文字幕| 国产一级黄色录像片| 尤物精品在线| www.日日操| 国产在线精品视频| 欧美肉大捧一进一出免费视频 | 蜜桃av免费观看| 亚洲色大成网站www久久九九| 欧美日韩大片在线观看| 精品久久久久久久久久| 久久久久久久久久一级| 91精品国产免费久久综合| 亚洲国产综合网| 亚洲视频一区二区| 国产成人高清精品| 国产91|九色| 亚州欧美在线| 精品在线视频一区二区三区| 久久精品国产www456c0m| 成人国产在线看| 久久久精品日韩| 国产在线视频三区| 久久午夜色播影院免费高清 | 亚洲成人免费av| 中文在线免费观看| 精品国产乱码91久久久久久网站| 国产高清在线| 97精品免费视频| 高清国产一区二区三区四区五区| 国内一区二区三区在线视频| 99久久亚洲精品蜜臀| 欧美亚洲一二三区| 国产一区999| 我不卡一区二区| 图片区小说区国产精品视频| 一级视频在线播放| 亚洲欧美激情一区| 国产蜜臀一区二区打屁股调教| 国产免费久久av| 国产在线观看91一区二区三区| 成人毛片100部免费看| 秋霞电影一区二区| 一区二区三区免费在线观看视频 | 国产香蕉视频在线| 日韩视频国产视频| 在线观看av黄网站永久| 欧美一级大片在线观看| av不卡一区| 五月天综合婷婷| 麻豆国产精品官网| 干b视频在线观看| 欧美小视频在线| 色欲av永久无码精品无码蜜桃| 欧美成人亚洲成人| 国产欧美视频在线| 永久久久久久| 免费看欧美女人艹b| 加勒比综合在线| 欧美午夜片欧美片在线观看| 刘玥91精选国产在线观看| 麻豆国产精品va在线观看不卡 | 成人午夜激情网| 久久精品av| 2025韩国理伦片在线观看| 久久久91精品国产一区二区精品| 天天干天天干天天操| 精品偷拍一区二区三区在线看| 超碰在线网站| 国产精品一区二| 亚洲激情专区| 动漫美女无遮挡免费| 亚洲一区在线观看视频| 黄色片一区二区| 久久久久久欧美| 国产另类在线| 毛片在线视频播放| 91亚洲精品乱码久久久久久蜜桃| 日本少妇xxxx动漫| 日韩精品极品在线观看播放免费视频 | 国产福利一区二区三区视频在线| h色网站在线观看| 欧美一二区视频| 国产丝袜在线播放| 国产亚洲欧美一区二区| 一道本一区二区| 麻豆精品免费视频| 欧美影院精品一区| 欧美黑人激情| 亚洲最大成人网色| 1024成人| 精品无码一区二区三区| 在线视频国内一区二区| 日本www在线观看视频| 亚洲一区二区三区香蕉| 精品999网站| 亚洲av无码一区二区二三区| 色婷婷av久久久久久久| 999国产在线视频| 99精品国产高清在线观看| 99精品国产一区二区青青牛奶| 中文精品在线观看| 欧美日韩情趣电影| h视频在线免费观看| 国产精品综合久久久久久| 亚洲在线观看| 又嫩又硬又黄又爽的视频| 日韩一级高清毛片| 久久电影tv| 欧美少妇一级片| 99久久99精品久久久久久| 中文在线最新版天堂| 国产女人水真多18毛片18精品视频| 国产伦理在线观看| 欧美日韩国产中文字幕| aⅴ在线视频男人的天堂| 亚洲综合第一页| 中文一区二区| 999精品在线视频| 亚洲电影在线看| 精品亚洲a∨| 久在线观看视频| 中文字幕日韩一区| 色偷偷在线观看| 成人精品一区二区三区| 久久国产88| 91成人福利视频| 亚洲性猛交xxxxwww|