精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包大模型團隊發布全新Detail Image Caption評估基準,提升VLM Caption評測可靠性

人工智能 新聞
中科院、北大和字節豆包大模型團隊發布了 DetailCaps-4870 數據集,并提出了一種有效的評估指標 CAPTURE,取得了開源評估指標中最高的專家評價一致性,并低成本實現了與 GPT-Eval 可比的效果。

當前的視覺語言模型(VLM)主要通過 QA 問答形式進行性能評測,而缺乏對模型基礎理解能力的評測,例如 detail image caption 性能的可靠評測手段。

針對這一問題,中科院、北大和字節豆包大模型團隊發布了 DetailCaps-4870 數據集,并提出了一種有效的評估指標 CAPTURE,取得了開源評估指標中最高的專家評價一致性,并低成本實現了與 GPT-Eval 可比的效果。

圖片

  • 論文:https://arxiv.org/abs/2405.19092
  • 數據集:https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
  • 代碼:https://github.com/foundation-multimodal-models/CAPTURE

簡介

當前的 LVLM(large vision-language model)評測存在以下問題:

  • 現有的 LVLM 評測方案主要采用 VQA 形式,很大程度受到指令遵循(instruction following)能力的影響,且 QA prompt 的設計容易引入人類的偏見(bias)。
  • Image caption 任務可以有效評估模型理解能力,但現有的 caption benchmark 多使用短 caption 作為 ground truth,這在 lvlm 時代完全過時。
  • 同時,現有的 image caption 評測指標與人類、GPT 等專家評價結果的一致性較差,常用的 bleu、rouge 等指標抽取 n-gram 進行匹配,對關鍵信息的準確性不夠敏感。而 GPT-Eval 雖然和專家評價較為一致,但是會帶來高昂的評測成本。

針對這些問題,該研究提出了新的 Detail image caption benchmark 和 evaluation metric,以在較低的成本下實現了對 LVLM 圖像理解能力的準確評估。

在所提出的評測數據集 & 指標的指導下,該研究還探索了發掘 LVLM 自身能力進行 detail image caption 的數據構造方法,有效提升了 detail caption 數據質量。

圖片

圖一:左側為 CAPTURE metric 實例展示,右側為 detail caption construction 方法展示

數據集

相比類似大小的評測數據集,該研究提出的 Detail image caption benchmark 文本長度更長,無重復的 2-gram 數量明顯更多,包含更豐富的視覺信息:

圖片

表一:DetailCaps benchmark 統計信息

評估指標

該研究所提出的 CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information) 指標通過 4 步進行 caption 質量評估。如下圖所示,首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素,緊接著過濾掉沒有實際意義的 objects。之后,通過三階段匹配(精確匹配、近義詞匹配、embedding 匹配)分別計算 obj、attr、rel 元素的匹配得分(F1 分數),加權作為最終結果。

圖片

圖二:CAPTURE metric 詳細計算步驟

Detail caption 數據合成

在 DetailCaps benchmark 和 CAPTURE metric 的指導下,該研究提出了一種基于 divide-and-conquer 思想發掘 LVLM 潛力進行數據合成的方法,有效提升了 detail caption 數據質量。該方案首先使用 LVLM 進行全圖 caption 生成,之后使用分割模型(SAM [2])和聚類等過濾方法找到圖中的關鍵位置并將其裁剪出來進行局部 caption 生成。文章使用一種 word-level 的過濾方法來減少 caption 中的幻覺,該方法首先解析(parse)出描述圖中視覺元素的詞和短語,再通過目標檢測模型(Owlv2 [3])過濾掉得分低的元素。最后,將過濾后的全圖 caption、局部 caption 送入 LLM(LLaMA2 [4])融合為最終的圖像描述。

實驗

CAPTURE 指標

(1)CAPTURE vs 其他 caption 指標

該研究在 DetailCaps-100(人工標注 reference caption,人工評估模型生成 caption 得分)和 DetailCaps-4870(GPT 標注 reference caption,GPT-4 評估模型生成 caption 得分)上,對 LLaVA-1.5 [5]、CogVLM [6] 和 ShareCaptioner [7] 三個模型生成的 caption 進行了專家打分,并計算各個評估指標與專家評價的一致性:

圖片

表二:CAPTURE 與其他 detail image caption 評估指標的專家評價一致性對比

各 caption 評估指標和專家評價的一致性通過 pearson correlation(線性相關性)、 R^2(絕對值大小)、 Kendall's tau(排序偏序對一致性)和 (Per-) Sample (Kendall's) tau(每個樣本單獨計算取平均)指標進行衡量。

結果顯示,CAPTURE 在各種指標上都取得了最優的專家評價一致性。在這些指標中,Sample tau 與實際 detail image caption 評估的計算方式最為接近,CAPTURE 也是唯一在這個指標上取得與 GPT4-Eval 接近的方法,在評估的準確率、成本上取得了良好的平衡。

(2)消融分析

研究者還對 CAPTURE 中的各個模塊進行了消融分析,并驗證其有效性:

圖片

表三:CAPTURE 各模塊的消融分析

實驗結果顯示,Stop words 有效提升了 Sample tau,說明了該模塊的有效性。但是 stop words filtering 會對不同樣例的 detail caption 造成不同的影響,從而導致 pcc、kendall tau 微降。Soft matching 也提升了 sample tau,同時在 1-R2 分數上有明顯增益作用,將 CAPTURE 預測分數和專家打分的絕對分值對齊。在加權計算最終得分時,obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都會造成性能下降。

(3)開源 LVLM 的 detail caption 性能

圖片

表四:開源 LVLM 的 detail caption 性能對比

總體來看,InternVL-1.5 是當前表現最好的開源 LVLM。從 LLaVA、MiniGemini 結果可以看出,LLM 參數量的提升對模型 detail caption 能力有一致的提升作用。同時,分辨率較高、使用高質量 detail caption 進行訓練的模型,性能會更好。

Detail caption 數據構造

基于 detail caption 評估數據集和評測指標,研究者驗證了所提出的 detail caption 數據合成方案的有效性。

(1)Detail caption 合成方法在不同 LVLM 上的有效性

如下表所示,該研究提出的 detail caption 合成方法在 LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-NEXT-7B 和 Mini-Gemini-7B-HD 上取得了一致的 detail caption 質量提升:

圖片

表五:不同 LVLM 使用該研究提出的 detail caption 合成方法效果

(2)通過 Self-loop 進一步提升 detail caption 性能

研究者還嘗試通過數據打標 -> 模型訓練 -> 重新打標的訓練流程進行 Self-loop 來進一步提升 LVLM detail caption 性能,在四輪 loop 中都取得了正面效果。同時,對比開源方案 [8] 與本文所提出的 word-level 幻覺過濾方案,證明了其設計的有效性:

圖片

表六:Detail caption 合成方案的 self-looping 效果和消融分析

(3)LVLM 自身打標的 detail caption 可提升其整體性能

該研究使用 LLaVA-1.5 按照給出的 detail caption 構造方案對 sharegpt4v-100k 數據進行了重新打標,并將打標數據用于 LLaVA-1.5 的 SFT 訓練,在多個 benchmark 上取得了一致的性能提升:

圖片

表七:合成 detail caption 數據在 LLaVA-1.5-7B 模型訓練中的作用

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-01 20:25:28

2025-03-05 08:40:00

2025-07-17 09:21:11

2025-09-23 09:06:00

AILLM系統

2010-12-28 19:50:21

可靠性產品可靠性

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2014-11-18 15:00:19

OS XYosemite

2009-07-24 12:35:17

刀片惠普數據中心

2023-07-21 08:00:00

API數字世界

2010-08-26 10:48:51

CSScaption-sid

2024-05-24 13:36:49

2011-04-18 14:05:15

可靠性系統測試嵌入式系統

2024-03-13 13:09:14

性能智能座艙軟件

2025-06-20 09:03:00

2025-04-10 14:30:12

2010-12-28 20:16:24

2011-05-25 19:31:07

Stratus信息化

2024-11-02 10:28:03

2025-10-15 14:02:29

AI模型自動駕駛

2025-01-13 07:00:00

點贊
收藏

51CTO技術棧公眾號

日本福利片高清在线观看| 亚洲做受高潮无遮挡| av香蕉成人| 成人综合在线观看| 茄子视频成人在线| 成人信息集中地| 91精品国产乱码久久久竹菊| 色偷偷久久人人79超碰人人澡| 日本一区网站| 亚洲AV午夜精品| 天堂久久久久va久久久久| 久久亚洲国产精品| 野外性满足hd| 高清不卡一区| 欧美大人香蕉在线| 精品在线一区二区| 国语自产精品视频在免费| 国产黄片一区二区三区| 日韩一级淫片| 欧美日韩一级片网站| 人妻少妇精品久久| 久cao在线| www欧美成人18+| 91嫩草视频在线观看| 波多野结衣电车痴汉| 韩日成人av| 日韩视频在线免费| 精品无码一区二区三区 | 亚洲精品成人悠悠色影视| 久久久久久久有限公司| 精品久久人妻av中文字幕| 日韩不卡在线观看日韩不卡视频| 国精产品一区一区三区有限在线| 成人一级黄色大片| 精品国产不卡| 日韩激情视频在线| 国产69视频在线观看| 欧洲熟妇精品视频| 刘亦菲久久免费一区二区| 精品在线亚洲视频| 国产精品女人网站| 中文字幕亚洲乱码熟女1区2区| 欧美婷婷在线| 欧美猛男性生活免费| 69夜色精品国产69乱| 日韩欧美中字| 在线视频免费一区二区| 熟女俱乐部一区二区| 日韩精品丝袜美腿| 亚洲国产精品女人久久久| 性高潮免费视频| 精品一区二区三区中文字幕在线| 欧美日韩精品专区| 中文字幕第38页| 成人在线高清| 欧美日韩国产片| 91国内在线播放| 久久久久伊人| 欧美一级二级三级区| 激情成人综合网| 91在线视频导航| 国产免费av观看| 国内精品视频666| 亚洲综合中文字幕68页| 精品国产黄色片| 国产成人h网站| 国产精品xxx在线观看www| 亚洲国产成人精品一区二区三区| 国产福利精品一区| 国产精品国产精品国产专区蜜臀ah| 亚洲av少妇一区二区在线观看| 国产精品影视在线观看| 国产精品sss| 五月天婷婷在线观看| 99久久免费视频.com| 久久伊人一区| 91在线品视觉盛宴免费| 综合激情成人伊人| 亚洲乱码日产精品bd在线观看| 91香蕉视频污版| 午夜国产在线观看| 久久九九国产精品| 一本久道久久综合| 一二三四区在线观看| 亚洲v中文字幕| 91av俱乐部| 国产精品毛片无码| 亚洲精品一区二区三区四区高清| 欧美性xxxx图片| 日韩一区电影| 久久久久久中文字幕| 久久人妻免费视频| 精品一区二区三区在线观看| 动漫3d精品一区二区三区| 三级在线电影| 免费看久久久| 国产精品影视在线观看| 精品国产免费人成电影在线观...| 日本天堂在线| 亚洲色图制服诱惑| 亚洲啊啊啊啊啊| 欧美性xxx| 日韩欧美久久久| 日本精品在线观看视频| 伊人蜜桃色噜噜激情综合| 国产精品第1页| 欧洲av在线播放| 国产精品久久久爽爽爽麻豆色哟哟| 日本久久久网站| 91精品影视| 亚洲第一页自拍| 欧美xxxooo| 久久亚洲二区| 国产精品免费区二区三区观看 | 日批视频免费观看| 成人福利视频网站| 午夜在线视频免费观看| 吉吉日韩欧美| 亚洲国产欧美精品| 成熟的女同志hd| 免费人成网站在线观看欧美高清| 国产精品视频在线免费观看 | 97人人模人人爽人人喊中文字| 在线视频 91| 久久久精品天堂| www.av中文字幕| 亚洲精品午夜| 久久天天躁狠狠躁老女人| 国产精品久久久久99| 久久久久久久蜜桃| 极品美女销魂一区二区三区 | 国产美女直播视频一区| 你懂的在线网址| 亚洲www啪成人一区二区麻豆| 青青草精品在线| 天堂美国久久| 国产深夜精品福利| av大片在线播放| 在线观看国产日韩| a级片在线观看| 亚欧成人精品| 久久影视中文粉嫩av| a'aaa级片在线观看| 欧美不卡123| 黄色一级免费视频| 国产精品91xxx| 五月天激情图片| 亚洲精品视频一二三区| 欧美韩日一区二区| xxxx国产精品| 久久国产福利| 亚洲福利在线观看| 久草视频免费播放| 国产高清成人在线| 日本人妻伦在线中文字幕| 精品国产欧美| 欧美大码xxxx| 欧美自拍第一页| 疯狂做受xxxx欧美肥白少妇 | 国产精品区一区二区三区| 亚洲一二三区av| 欧美电影免费| 亚洲伊人成综合成人网| 欧美精品videossex少妇| 日韩欧美国产综合| 国产精品99精品无码视| 久久午夜免费电影| 毛葺葺老太做受视频| 国产精品久久久久蜜臀| 亚洲自拍偷拍一区| 大桥未久在线播放| 亚洲精品国产精品国产自| 黄色在线观看国产| 国产精品丝袜久久久久久app| www.超碰97.com| 免费在线观看你懂的| 欧美疯狂party性派对| 亚洲综合色激情五月| 天堂成人av| 亚洲激情国产精品| 国产裸体美女永久免费无遮挡| 国产精品久久久久久一区二区三区 | 欧美日韩国产免费一区二区| 印度午夜性春猛xxx交| 成人激情免费电影网址| 欧美伦理片在线看| 66国产精品| 国产亚洲二区| 欧美97人人模人人爽人人喊视频| 欧美福利视频在线| 国产午夜在线视频| 欧美一级二级三级蜜桃| 国产一级18片视频| 成人欧美一区二区三区1314| 日韩Av无码精品| 蜜臀国产一区二区三区在线播放| 狠狠干视频网站| 伊人精品一区| 99国精产品一二二线| 无人区在线高清完整免费版 一区二| 久久精品国产欧美激情| 秋霞av在线| 日韩一区二区三区电影在线观看| www.毛片.com| 一区二区三区在线播放| 亚洲av熟女国产一区二区性色| 国产91精品一区二区麻豆亚洲| 久久久久久久久久久久久久国产| 欧美激情综合| 亚洲看片网站| 免费欧美一区| 国产欧美韩日| 激情综合婷婷| 国产精品夜色7777狼人| 色综合亚洲图丝熟| 欧美激情视频在线免费观看 欧美视频免费一 | 久久国产精品二区| 国产精品国模大尺度视频| 久久久久久久无码| 理论片一区二区在线| 亚洲蜜臀av乱码久久精品蜜桃| www.久久com| 全国精品久久少妇| 黄色国产精品视频| 亚洲国产一区二区三区a毛片| 中文一区一区三区免费| 波多野结衣一区| 日本一区二区精品视频| 欧美freesex8一10精品| 粉嫩av免费一区二区三区| 91成人在线网站| 成人免费淫片视频软件| 国产麻豆一区| 国产精品麻豆va在线播放| 大胆人体一区二区| 97人人做人人爱| 国产在线观看www| 韩国一区二区电影| 爱情岛亚洲播放路线| 欧美激情成人在线视频| 18视频在线观看网站| 欧美成人免费观看| 超鹏97在线| 美女精品视频一区| 天天色天天射天天综合网| 欧美激情乱人伦| 超碰在线cao| 91精品国产高清| 亚洲精品成人图区| 日本电影亚洲天堂| 偷拍精品精品一区二区三区| 日本不卡视频在线播放| 桃子视频成人app| 国产精品国模在线| h1515四虎成人| 成人精品福利视频| 国产裸体视频网站| 国产精品毛片| 欧美日韩第二页| 日本成人在线一区| 一个色综合久久| 国产高清久久久久| 中文字幕在线视频播放| 99精品欧美一区二区三区小说 | av在线资源观看| 欧美tk丨vk视频| 香蕉视频网站在线| 在线观看免费高清视频97| 男人和女人做事情在线视频网站免费观看| 日韩视频在线免费观看| 毛片在线播放a| 久久久久久久爱| 欧美在线va视频| 3d动漫精品啪啪一区二区三区免费| 澳门精品久久国产| 欧美日韩天天操| 久9久9色综合| 亚洲精品一区二区毛豆| 欧美日韩精品免费观看视频完整| 日本少妇高潮喷水视频| 日韩不卡一区二区| 性一交一黄一片| 2023国产一二三区日本精品2022| 手机看片国产日韩| 欧美78videosex性欧美| 亚洲免费视频在线观看| 欧美一区二区三区| 韩国精品久久久999| 亚洲精品555| 国产高清一区二区三区| 欧美精品一区二区三区中文字幕 | 亚洲色图欧美| 国产h视频在线播放| 麻豆freexxxx性91精品| 亚洲国产精品第一页| 香蕉久久夜色精品国产| 亚洲36d大奶网| 九色|91porny| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 亚洲aaaaaaa| 精品国产网站地址| 在线能看的av网址| 91精品久久久久久久久久| 久久亚洲黄色| 麻豆md0077饥渴少妇| 久久看片网站| 97中文字幕在线观看| 国产精品女人毛片| 日本一区二区三区四区五区| 欧美日韩在线播放一区| 亚洲精品乱码久久| 天堂综合网久久| 久久久国产精华液999999| 亚洲欧美高清| 国产伦精品一区二区三区88av| 国产精品美女视频| 91porny在线| 精品奇米国产一区二区三区| 91免费在线| 国产福利视频一区二区| 免费萌白酱国产一区二区三区| 高清无码一区二区在线观看吞精| 蜜臀久久久久久久| 国产美女免费无遮挡| 精品日本高清在线播放| 丰满人妻一区二区三区四区53| 搡老女人一区二区三区视频tv| 色老太综合网| 美国av一区二区三区| av不卡免费看| av2014天堂网| 亚洲国产精品精华液网站| www.日韩在线观看| 久久视频国产精品免费视频在线| 国产精品99| 午夜视频久久久| 日本美女视频一区二区| www.av天天| 91福利国产成人精品照片| 日韩a在线观看| 欧美一级视频免费在线观看| 首页亚洲中字| 激情综合在线观看| 国产精品毛片aⅴ一区二区三区| 日韩国产欧美精品在线| 国产在线看片| 亚洲精品免费一区二区三区| 亚洲破处大片| 9191在线视频| 亚洲在线观看免费视频| 亚洲爱爱综合网| 久久久噜噜噜久久久| 国产美女撒尿一区二区| 欧美 日韩 激情| 久久伊99综合婷婷久久伊| 色老头一区二区| 中文一区二区视频| 亚洲最大的免费视频网站| 男女爱爱视频网站| 国产成人三级在线观看| 国产对白videos麻豆高潮| 亚洲美女在线视频| 91精品店在线| 国产一二三四五| 成人av在线资源| 东京热一区二区三区四区| 在线视频欧美性高潮| 香蕉成人在线| avav在线播放| 久久久蜜臀国产一区二区| 中文字幕人妻精品一区| 久久亚洲一区二区三区四区五区高| 一区二区三区四区视频免费观看| 国产真人做爰毛片视频直播| 久久精品男人的天堂| 国产精品久久综合青草亚洲AV| 久久久久久av| 国产一区二区三区日韩精品| 手机免费看av网站| 亚洲超碰精品一区二区| 东热在线免费视频| caoporen国产精品| 99在线精品视频在线观看| 手机av在线不卡| 日韩精品一区二区三区视频播放| 蜜桃麻豆影像在线观看| 三年中文高清在线观看第6集| 丁香六月综合激情| 69视频免费看| 一区久久精品| 国产精品久久无码| 欧美色网一区二区| jizz一区二区三区| 日本一区视频在线播放| 国产高清无密码一区二区三区| www.国产毛片| 欧美大尺度激情区在线播放| 女优一区二区三区| 色哟哟网站在线观看| 色乱码一区二区三区88|