精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Evaluation is All You Need!首個開源多模態大模型通用評測器LLaVA-Critic

人工智能 新聞 開源
LLaVA-Critic 是首個通用的開源多模態大模型評測器,能夠在多個開放式多模態場景中評測模型表現。

作者介紹:本文作者來自于字節跳動和馬里蘭大學。其中第一作者為馬里蘭大學博士生熊天翼,主要研究領域為計算機視覺,多模態基礎大模型;通訊作者為 Chunyuan Li (https://chunyuan.li/)。

本文作者也包括馬里蘭大學博士生王璽堯,字節跳動研究員 Dong Guo、Qinghao Ye、Haoqi Fan、Quanquan Gu, 馬里蘭大學教授 Heng Huang。

引言:Evaluation is All You Need

隨著對現有互聯網數據的預訓練逐漸成熟,研究的探索空間正由預訓練轉向后期訓練(Post-training),OpenAI o1 的發布正彰顯了這一點。

而 Post-training 的核心在于評測(Evaluation)。可靠的 AI 評測不僅能在復雜任務的評測中提供可擴展的解決方案,減少人工勞動,還能在強化學習中生成有效的獎勵信號并指導推理過程。


例如,一個 AI 評測器可以遵循用戶設計的評分標準,在視覺對話任務中為不同模型的回復(model response)提供 1 到 10 的評分。除了評分外,它還會提供相應的給分理由,確保模型性能評測的透明性和一致性。


來自字節跳動和馬里蘭大學的研究團隊發布了首個用于多任務評測的開源多模態大模型 LLaVA-Critic,旨在啟發社區開發通用大模型評測器(generalist evaluator)

圖片

  • 論文標題:LLaVA-Critic: Learning to Evaluate Multimodal Models
  • 論文鏈接:https://arxiv.org/abs/2410.02712
  • 項目主頁:https://llava-vl.github.io/blog/2024-10-03-llava-critic/
  • 數據與模型開源:https://huggingface.co/collections/lmms-lab/llava-critic-66fe3ef8c6e586d8435b4af8

首先,該團隊構建了一個涵蓋了多樣化評測場景和評分標準的評測指令遵循數據集(critic instruction-following dataset);之后,在這一數據集上訓練 LLaVA-Critic,使之學會對模型回復給出合理評分(judgement)和打分依據(reason);更進一步,在多模態評測(LMM-as-a-Judge)偏好學習(preference learning)兩個場景中驗證了 LLaVA-Critic 的有效性。

評測指令遵循數據集

該團隊首先構建了一個高質量的評測指令遵循數據集,旨在涵蓋多個復雜的評測場景,根據對應的評測提示給出相應的打分和評分理由。

論文中將使用 AI 模型(如 GPT)作為評測器的開放式多模態評測任務分為兩類:

1. 單點評分(pointwise-scoring):根據評測提示,對單個模型回復進行打分。

2. 成對排序(pairwise-ranking):對于兩個(一對)模型回復,給出二者之間的偏序關系或宣布平局。

圖片

LLaVA-Critic-113k 主要包含單點評分和成對排序兩種評測設定。在兩種評測中,LLaVA-Critic 均需要根據給定的圖片、問題、模型回復以及評測提示中給定的評分要求,對模型回復打分并給出理由。

針對單點評分,該團隊從 8 個多模態數據集中收集了輸入指令(圖片 - 問題),使用 13 個 LMM 生成模型回復,并匯集了 7 個常用開放式評測基準中的評測提示,由此整理得到評測樣本。針對于每一條評測樣本,再詢問 GPT-4o 進行評測,得到判斷得分與理由。

針對成對排序,該團隊收集了三個偏好數據集中的模型回復,這些數據中已經包含了人類或 GPT-4V 的偏好排序結果。之后,將每一對模型回復和已知的偏序關系輸入給 GPT-4o,獲取其對偏序關系的解釋。

在此基礎上,他們設計了 30 個包含不同格式與評分標準的評測提示模板,將【圖片 - 問題輸入,兩個模型回復,偏序關系,解釋】打包成涵蓋多種評測場景的評測指令遵循數據。

由此,LLaVA-Critic-113k 數據集得以構建,共計包含 46k 張圖片和 113k 個評測數據樣本。下圖展示了具體的數據統計:

圖片

LLaVA-Critic-113k 數據集的數據統計。該團隊收集了廣泛的輸入指令與模型回復,涵蓋了多個評測任務和領域。需要注意的是,以上全部數據來源于開源的指令遵循訓練數據,與實際的評測基準(evaluation benchmark)沒有重合。

LLaVA-Critic

首個具有通用評測能力的開源多模態大模型

為了使模型具備通用的評測能力,該團隊對一個已經具備強大指令遵循能力的預訓練多模態大模型進行指令微調。這一點非常關鍵,因為模型自身能高質量處理復雜視覺任務是其具備評測能力的基礎;而評測能力則在此之上,作為附加的判別能力得到進一步開發。

在訓練中,LLaVA-Critic 會接受一個評測提示(evaluation prompt),包含多模態指令輸入、模型回復及可選的參考回復。它會根據評測提示中的評分標準,預測定量分數或成對排序,并給出詳細的理由。

該團隊對評測結果(分數或偏序關系)理由同時應用交叉熵損失進行訓練。實驗中,他們從 LLaVA-OneVision (OV) 7B/72B 預訓練模型開始,使用 LLaVA-Critic-113k 數據集進行 1 輪微調,得到 LLaVA-Critic 模型。

場景一:多模態大模型作為評測器(LMM-as-a-Judge)

該團隊首先對 LLaVA-Critic 模型在多個多模態評測任務中與 GPT-4o 以及人類的打分一致性進行了驗證。

圖片

在評分的整體分布和對回復模型 (response model) 的排序層面上,LLaVA-Critic 均展現了與 GPT-4o 的一致性

如上圖所示,在單點評分的評估任務中,LLaVA-Critic 大幅超越其基礎模型 LLaVA-OneVision—— 在多個開放式問答評估基準上,其評分一致性和模型排序與 GPT-4o 高度吻合。

圖片

上表比較了不同評測器在成對排序方面與人類偏好的一致性。LLaVA-Critic-72B 在評測準確率(不包含平局)方面達到了 73.6%,已經超越了 GPT-4V/4o;在其余兩個指標中也與商用的 GPT 模型差異很小。

盡管 LLaVA-Critic-7B 的模型參數大幅減少,但其在包含與不包含平局的評測準確率上仍分別達到了 59.6% 和 72.2%。這為在資源受限的環境中部署 LLaVA-Critic 提供了可行的解決方案。

圖片

上表展示了 LLaVA-Critic 在 MLLM-as-a-Judge 基準測試中的表現,該測試包括了訓練數據中未見過的更廣泛評測場景。面對全新的評測任務,LLaVA-Critic 也顯著縮小了開源模型與 GPT-4o/4V 在評測準確性上的差距,充分展現其泛化性與通用性。

在上述實驗結果中,72B 模型的表現優于 7B 模型,Critic-7B 的表現也優于使用弱化版本評測數據訓練的 Critic-7B(v0.5)—— 這進一步強調了模型擴展(model scaling)和數據擴展(data scaling)在構建通用評測器中的重要性。

圖片

在這個成對排序示例中,LLaVA-Critic 能夠準確識別輸入圖像的內容(手寫數字 「7」),并基于回復間的差異做出判斷,給出了和人類評估者一致的排序,并提供了清晰的理由說明。后者(評分理由)對于構建可靠人工智能至關重要,它使 LLaVA-Critic 的評測過程更透明,評測結果更可信。

場景二:偏好學習(Preference Learning)

LLaVA-Critic 的評測能力也可用于比較成對模型回復的好壞,從而作為獎勵信號應用于 RLHF 和 DPO 等強化學習算法。實驗中,該團隊將 LLaVA-Critic 用于迭代直接偏好優化( iterative DPO)算法,具體方式如下:

給定一個預訓練 LMM 和一組圖片 - 問題輸入,首先讓 LMM 對每一個圖片 - 問題輸入隨機生成 K=5 個候選回復,由此構建出 Kx (K-1)=20 個成對回復。

接著,使用 LLaVA-Critic 對這 20 個回復對進行成對排序,選出最好和最壞的回復,形成成對的反饋數據集。

之后,使用這一數據集對于預訓練 LMM 進行直接偏好優化(DPO)訓練。

在此基礎上,漸進式迭代這一過程共計 M 輪,每次使用最新訓練的模型生成候選回復,最終得到與 LLaVA-Critic 反饋對齊的模型。

該團隊采用 LLaVA-OneVision 作為初始 LMM,進行 3 輪 iterative DPO 訓練,最終將訓練后的模型命名為 LLaVA-OneVision-Chat。隨后,他們在多個開放式問答評測基準上測試了最終模型的表現,以比較 LLaVA-Critic 和其他獎勵模型的效果。

如上表所示,無論是在 7B 還是 72B 基礎模型上,LLaVA-Critic(AI 反饋)均超越了 LLaVA-RLHF (人類反饋),顯著提升了基礎模型在 6 個多模態開放式問答評測基準上的表現。

下方的柱狀圖進一步直觀展示了 LLaVA-Critic 的反饋對 LLaVA-OneVision 模型在視覺問答性能上的提升效果。可見,LLaVA-Critic 作為一種提供有效獎勵信號的可擴展方案,不僅減少了對昂貴人工反饋的依賴,還通過 AI 生成的反饋進一步優化了模型的偏好對齊效果。

圖片

結論

LLaVA-Critic 是首個通用的開源多模態大模型評測器,能夠在多個開放式多模態場景中評測模型表現。為實現這一目標,研究團隊精心構建了一個高質量的評測指令遵循數據集,涵蓋多樣化的評測任務與標準。

實驗中展示了 LLaVA-Critic 在兩個關鍵領域的有效性:

1. 作為通用的評測器,LLaVA-Critic 能夠為需要評測的模型回復提供單點評分和成對排序,這些評分和排序與人類和 GPT-4o 的偏好高度一致,為自動評測多模態大模型的開放式回復提供了一個可行的開源替代方案。

2. 在偏好學習方面,LLaVA-Critic 提供的偏好信號能有效提升多模態大模型的視覺對話能力,甚至超越了基于人類反饋的 LLaVA-RLHF 獎勵模型。

這項工作在利用開源多模態大模型自身的評價能力方面,邁出了重要的一步。我們期待更多的研究可以由此出發,通過探究更具可擴展性的,超越人類的對齊反饋機制,進一步推動多模態大模型的發展。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-04-27 09:33:01

EasyNLP開源框架

2024-03-25 12:30:18

AI訓練開源

2025-07-04 16:50:07

工具AI模型

2024-09-10 12:11:18

2025-01-08 08:21:16

2024-03-25 12:40:19

訓練模型

2025-05-14 08:51:00

2025-07-18 11:37:52

2024-01-22 13:59:00

模型訓練

2025-10-17 10:03:23

2025-07-24 11:38:40

2025-09-16 09:35:52

2024-08-19 13:35:09

2025-06-13 14:27:05

AI模型智能體

2024-01-24 13:16:00

AI訓練

2025-08-06 09:10:10

2021-06-17 10:28:42

谷歌開源轉譯器
點贊
收藏

51CTO技術棧公眾號

欧美在线亚洲在线| 欧美一区二区日韩| 无码免费一区二区三区免费播放 | 亚洲高清视频在线观看| 中文字幕欧美人妻精品一区蜜臀| 亚洲资源网你懂的| 欧美亚洲综合一区| 异国色恋浪漫潭| 国模私拍视频在线| 久久亚洲精选| 中文字幕日韩专区| 超碰人人cao| 大胆人体一区| 亚洲天堂中文字幕| 国产偷国产偷亚洲高清97cao| 日韩精品久久久久久免费| 成人精品电影| 精品久久久久香蕉网| av天堂永久资源网| 蜜芽在线免费观看| 91小视频在线| 99天天综合性| 色偷偷88欧美精品久久久| 亚洲7777| 刘亦菲久久免费一区二区| 伊人久久综合| 色先锋资源久久综合5566| 国产乱淫av麻豆国产免费| 丁香六月综合| 亚洲精品一卡二卡| 色噜噜狠狠色综合网| 成人免费公开视频| 精品一区二区日韩| 欧美尤物巨大精品爽| 日韩一区二区三区四区在线| 美女少妇全过程你懂的久久 | 在线日韩精品视频| 亚洲成人激情小说| 国产原创一区| 欧美性猛交xxxx免费看久久久| 一区二区日本伦理| 国产资源在线播放| 成人av在线一区二区| 成人免费视频在线观看超级碰| 99久久99久久精品国产| 国产精品一在线观看| 日韩亚洲欧美中文三级| 奇米影视四色在线| 亚洲第一影院| 亚洲大尺度视频在线观看| 在线成人av电影| 九色视频网站在线观看| av一区二区三区黑人| 3d动漫啪啪精品一区二区免费 | 欧美日韩一区视频| 国产美女三级视频| 欧美男男tv网站在线播放| 一区二区久久久久| 91社在线播放| 免费黄色网页在线观看| 久久午夜电影网| 国产日韩二区| 国产77777| 国产a区久久久| 国产精品自拍网| 波多野结衣视频免费观看| 性欧美videos另类喷潮| 2019日本中文字幕| 亚洲精品视频在线观看免费视频| 国一区二区在线观看| 在线观看精品自拍私拍| 精品丰满少妇一区二区三区| 日韩啪啪网站| 日韩经典一区二区三区| 亚洲精品女人久久久| 精品少妇一区| 日韩av在线网址| 国产精品无码永久免费不卡| 日本亚洲不卡| 国产婷婷色综合av蜜臀av| 成年人在线观看av| 日韩高清一级| 亚洲欧美综合另类中字| 日韩精品无码一区二区三区久久久| 国产精品白丝一区二区三区| 亚洲国产日韩欧美在线图片| 亚洲欧美在线不卡| 精品国产一区二区三区小蝌蚪 | 亚洲伊人第一页| 99精品在线看| 粉嫩高潮美女一区二区三区| 国产日韩欧美精品| 欧美老女人性开放| 久久精品人人爽人人爽| 日韩欧美三级一区二区| 亚洲精品承认| 亚洲一区二区在线播放相泽| av动漫在线看| 日韩国产网站| 91精品福利在线一区二区三区| jizz欧美性11| 97久久精品| 亚洲女人被黑人巨大进入al| 在线看片中文字幕| 欧美激情第二页| 91av在线视频观看| 这里只有精品国产| 国产超碰在线一区| 欧美性大战久久久久| 五月婷婷在线观看| 亚洲国产日日夜夜| 日本www.色| 粉嫩一区二区三区在线观看| 亚洲国产精品久久| 国产视频不卡在线| 亚洲麻豆一区| 成人疯狂猛交xxx| 日批免费在线观看| 国产亚洲一区字幕| 成人黄色大片网站| 日本在线视频一区二区三区| 在线电影中文日韩| 黄色大片网站在线观看| 高清视频一区二区| 中文字幕一区二区三区四区五区六区 | 亚洲の无码国产の无码步美| 女生裸体视频一区二区三区| 国产精品亚洲综合天堂夜夜| 久青草国产在线| 午夜精品免费在线观看| 男男受被啪到高潮自述| 午夜欧美在线| 成人a视频在线观看| 国产69久久| 日韩欧美精品免费在线| 久久人人妻人人人人妻性色av| 欧美精品黄色| 91精品婷婷国产综合久久蝌蚪| 日本在线视频网| 欧美老女人第四色| 毛片视频免费播放| 免费成人性网站| 亚洲国产精品一区二区第四页av| 日韩在线观看不卡| 中文字幕久久久av一区| 成人黄色三级视频| 国产欧美精品区一区二区三区| 日韩av播放器| 青青草国产免费一区二区下载| 国产精品成人va在线观看| 国产福利电影在线| 欧美视频在线播放| 男人的午夜天堂| 国产呦精品一区二区三区网站| 宅男在线精品国产免费观看| 亚洲图片小说区| 欧美成人黄色小视频| 午夜精品久久久久久久99热黄桃| 亚洲激情五月婷婷| 先锋资源av在线| 久久精品九九| 亚洲国产精品综合| 不卡一区视频| 欧美激情中文字幕乱码免费| 天堂在线视频观看| 欧美中文一区二区三区| 国产精品18在线| 国产成人av电影| 亚洲熟妇av日韩熟妇在线| 日韩精品丝袜美腿| 国产精品视频午夜| 性欧美猛交videos| 日韩国产精品一区| 久久久999久久久| 亚洲欧美激情插 | 97国产精品人人爽人人做| 色综合成人av| 欧美人xxxx| 久久精品免费在线| 日本一区二区三区国色天香| 福利片一区二区三区| 国产综合视频| 日本黑人久久| 涩涩屋成人免费视频软件| 97色在线视频观看| 在线日本视频| 亚洲精品福利在线| 国产精品一二三四五区| 五月天欧美精品| 国产91在线播放九色| 99视频一区二区三区| 日韩爱爱小视频| 在线欧美视频| 亚洲激情啪啪| 久久亚州av| 成人激情春色网| 涩涩网在线视频| 久久av资源网站| 婷婷丁香一区二区三区| 欧美日韩黄色一区二区| 天天操天天射天天爽| 最新中文字幕一区二区三区 | 狠狠做深爱婷婷综合一区| 成人精品一区二区三区| 韩国成人漫画| 欧美黑人xxx| 日本高清中文字幕在线| 亚洲美女av电影| 亚洲精品喷潮一区二区三区| 欧美日韩精品免费| 成年人视频免费| 婷婷国产v国产偷v亚洲高清| 精品人妻伦九区久久aaa片| 久久精品人人做人人爽人人 | 亚洲欧洲日韩在线| 午夜理伦三级做爰电影| 成人免费黄色大片| 黄色一级片免费播放| 日本强好片久久久久久aaa| 日本a在线免费观看| 欧美 日韩 国产精品免费观看| 水蜜桃一区二区| 女厕嘘嘘一区二区在线播放 | 国产精品sss| 白嫩亚洲一区二区三区| 国产精品一区二区性色av| 欧美大片免费| 欧美野外猛男的大粗鳮| 九色porny丨入口在线| 久久久免费精品| 日本中文字幕中出在线| 久久精品一本久久99精品| 成年在线电影| 一本色道久久综合狠狠躁篇怎么玩| 日本黄色三级视频| 日韩精品专区在线影院重磅| 国产又大又粗又长| 4hu四虎永久在线影院成人| 亚洲熟妇无码久久精品| 欧美日韩一区二区三区高清| 在线观看免费高清视频| 欧美日韩国产系列| 91亚洲视频在线观看| 在线电影院国产精品| 国产原创中文av| 日韩午夜在线影院| 亚洲一区二区三区久久 | 爱高潮www亚洲精品| 99精品国产高清一区二区| 国产精品国产三级在线观看| 91最新国产视频| 超碰在线亚洲| 老牛影视免费一区二区| 中文有码一区| 日韩视频在线观看国产| 天天超碰亚洲| av动漫在线播放| 亚洲成人资源| aⅴ在线免费观看| 奇米色一区二区三区四区| 国产原创精品在线| 韩国成人在线视频| 国产精品无码自拍| 91在线视频播放| 91中文字幕永久在线| 国产精品视频第一区| 男女做暖暖视频| 亚洲1区2区3区视频| 精品久久久久久久久久久久久久久久久久| 在线一区二区三区| 国产又黄又爽视频| 亚洲精品福利免费在线观看| 国产小视频在线播放| 久久亚洲国产精品成人av秋霞| 七七成人影院| 国产成人一区三区| 99久久99九九99九九九| 国产专区一区二区| 成人av资源电影网站| 丰满人妻一区二区三区53号 | 日产精品99久久久久久| 国产精品黄色片| 国产精品区一区二区三在线播放| 少妇精品导航| 青春草在线视频免费观看| 亚洲国产二区| 999精彩视频| 成人h动漫精品一区二| x88av在线| 亚洲影院久久精品| 国产女优在线播放| 亚洲福利视频网| 求av网址在线观看| 欧美一级bbbbb性bbbb喷潮片| av一级久久| 欧美一级爽aaaaa大片| 欧美日韩国产高清| 亚洲欧美激情网| av日韩在线网站| 国产午夜精品理论片在线| 欧美性色视频在线| 精品国产区一区二| 国内精品写真在线观看| 国产精品xxxx| 精品国产一区二区三区久久久樱花| 黄色a级片免费看| 免费成人av资源网| 中文人妻一区二区三区| 一级精品视频在线观看宜春院| 欧美在线视频精品| 亚洲黄色有码视频| huan性巨大欧美| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 欧美日本三级| 亚洲欧美日本国产有色| 男人天堂欧美日韩| 免费看黄色片的网站| 中文字幕日韩av资源站| 亚洲综合图片网| 亚洲精品久久7777777| 色a资源在线| 国产精品女主播| 精品国产一区二区三区四区 | 日本一二三区不卡| 日韩女优av电影| 搞黄网站在线观看| 国产日韩精品综合网站| 精品无人区麻豆乱码久久久| 99久久久无码国产精品6| 成人av电影在线| 久久亚洲AV无码| 日韩免费视频一区二区| 3d玉蒲团在线观看| 91精品综合视频| 天天做天天爱天天爽综合网| jizz18女人| 中文字幕一区二区三区不卡在线| 最近中文字幕在线视频| 中日韩美女免费视频网址在线观看| 625成人欧美午夜电影| 欧美高清一区二区| 日日夜夜免费精品| 欧美三级视频网站| 欧美日韩在线电影| 国产精品久久久久久福利| 成人午夜高潮视频| 亚洲美女视频| 亚洲最大视频网| 无吗不卡中文字幕| 你懂的免费在线观看| 国产精品观看在线亚洲人成网| 欧美日韩激情| 中文字幕免费高清在线| 亚洲视频网在线直播| 精品人妻少妇AV无码专区| 久久久人成影片一区二区三区观看| 国产ts一区| 99精品视频在线看| 欧美国产一区视频在线观看| 97免费观看视频| 久久久久久999| 免费观看久久av| 亚洲精品午夜在线观看| 亚洲精品日产精品乱码不卡| 天天操天天干天天插| 国产第一区电影| 久久久久蜜桃| 黑丝av在线播放| 欧美丝袜丝交足nylons图片| dy888亚洲精品一区二区三区| 国产精品手机在线| 日本特黄久久久高潮| 蜜臀av午夜精品久久| 亚洲白拍色综合图区| 精品免费av在线| 国产a级黄色大片| 久久免费视频一区| 国产精品亚洲lv粉色| 9.1国产丝袜在线观看| 日韩精品第一区| 中文字幕人妻一区| 精品视频一区三区九区| 肉体视频在线| 少妇特黄a一区二区三区| 国产成人免费视频一区| 亚洲天堂五月天| 色综合色综合久久综合频道88| 久草成人在线| 麻豆免费在线观看视频| 在线视频综合导航| 黄页网站在线| 中文字幕一区综合| 久久一区二区三区国产精品| 国产日产亚洲系列最新| 欧美做受高潮1| 欧美日韩一区自拍| 国产激情av在线| 日韩成人高清在线| 亚洲国产精品免费视频| 男人女人黄一级|