精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準

人工智能
LLM的數學推理能力缺陷得到了很多研究的關注,但最近浙大、中科院等機構的學者們提出,先進模型在視覺推理方面同樣不足。為此他們提出了一種多模態的視覺推理基準,并設計了一種新穎的數據合成方法。

無論是語言模型還是視覺模型,似乎都很難完成更抽象層次上的理解和推理任務。

語言模型已經可以寫詩寫小說了,但是依舊算不對9.11和9.9比大小的問題。

同樣的問題也出現在視覺模型中,它們能完美理解自然景色或人物照片,卻無法處理各種圖表任務,甚至看表讀時間都是難題。

如果要將AI系統用在更多專業領域,這些能力缺陷就顯得極為突出。

最近,浙江大學、中科院軟件研究所、上海科技大學等機構就聯合提出了一種新的多模態基準,專門衡量模型對抽象圖像的理解能力和視覺推理能力。

圖片圖片

論文地址:https://arxiv.org/pdf/2407.07053

數據集共包含11,193個帶有相關問題的抽象圖像,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8大類別,此外還有額外的62,476條數據用于微調模型。

經過測試,人類在該基準上可以達到至少82.1%的準確率,但Claude 3.5 Sonnet和GPT-4o等頂流模型的成績卻遠遠落后于人類,分別只有64.7%和59.9%。

圖片圖片

目前全部數據已經上傳至HuggingFace倉庫。

圖片圖片

倉庫地址:https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct

此外,作者也將數據構建數據所用的代碼上傳到了GitHub。

圖片圖片

代碼地址:https://github.com/zwq2018/Multi-modal-Self-instruct

構建數據集

作為新提出的基準測試,重頭戲自然是數據集的構建過程。

作者在論文中指出,想要采集到合適的抽象圖像-文本對,既需要大量人力,也十分耗費時間。

那么使用合成數據呢?

同樣也不容易,因為我們需要的是多模態數據,但LLM無法直接生成圖像,DALL-E、Stable Diffusion等圖像生成模型又無法同步生成文本。

一個直覺的解決方案是將二者結合在一起,直接生成<圖像,問題,答案>形式的數據。

但文生圖模型實際上很難對圖像細節做到細微精準的控制,尤其是生成僅由幾何形狀組成的抽象圖像,更何況其中大部分還需要包含數字和文字。

鑒于以上問題,作者提出了一種以代碼為中心的「自我指導」(self-instruct)策略進行圖像和相關文本的同步合成,整個過程只有語言模型——GPT-4-Turbo的參與,沒有用到圖像生成模型。(圖2)

圖片圖片

首先指導LLM,針對某個日常情景,提出一種視覺創意。這個過程中,作者給LLM提供了一些in-context示例,使生成結果盡可能涵蓋全部8個類別。

然后模型根據自己提出的創意,生成所需的數據和代碼以繪制圖像。

比如對于餅狀圖,LLM就需要先「捏造」數據,設計出每個類型對應的百分比數值。在代碼生成中,作者激勵模型使用Matplotlib或ECharts等代碼庫,顯著降低了代碼復雜度。

執行代碼并渲染好圖像后,LLM會繼續進行「自我指導」,根據視覺內容,加上之前所用的視覺創意、數據和代碼作為prompt,生成多個高質量的<問題,答案>文本對。

除了為每個問題生成答案,作者還提示LLM生成能解釋答案的「原理」(rationale),以便用于訓練模型,起到類似于CoT的作用。

整個構建過程的流水線如下圖所示:

圖片圖片

這種「以代碼為中心」的方式不僅更容易保證圖像的細節、質量和多樣性,也讓LLM更容易生成相關文本。

數據合成過程所用的模型是GPT-4-Turbo,但合成后還經過Llava-1.5的初篩,以保證圖像的美觀程度、布局合理性以及文本可讀性等。

最終構建的測試集共包含3.658張圖像和11,193條指令,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8個類別。

圖片圖片

數據集進行了10%的隨機抽樣,并讓人類驗證答案的正確性,發現數據集的質量有一定的保證。

為了能進一步評估合成數據的質量,作者還為圖表、表格和路線圖這三個任務構建了額外的訓練集,共包含62,476條指令(圖1)。

圖片圖片

基準測試

論文共對12個模型進行了測試,詳細結果如表A1所示,其中人類所得分數來自于兩個本科生分數的平均。

圖片

其中得分最高的是Claude 3.5 Sonnet,平均準確率為64.74%;GPT-4o緊隨其后,準確率為59.99%,都與人類平均水平82.1%相去甚遠。

作者發現,在圖表、關系圖、2D平面圖中,模型經常在抽象概念或空間關系上出錯。

8個類別的抽象圖像中,模型表現最差的當屬「路線圖」類。Claude 3.5 Sonnet平均準確率為59.24%,其余模型均為未超過40%。

在「路線圖」和「視覺謎題」兩類圖像任務中,開源和閉源模型的差距尤為明顯。

模型微調

除了構建基準,論文發現,用這些合成數據訓練模型可以顯著提高其視覺推理能力。

相比之前的Vanilla Llava-1.5-7B,用62K條數據經過4小時LoRA微調后的模型,在3類圖像任務上都有非常顯著的提升。尤其是「路線圖」類別,準確率飆升67.4%,超過了GPT-4V和Claude-3-Sonnet(表2)。

雖然模型在微調后出現性能提升屬于正常現象,但這種微調效率可以側面證明合成數據的潛力,尤其是在質量、有效性和多樣性方面。

除了在原基準上有所進步,微調后的模型在ChatQA、MathVista這樣弱相關任務上也有不同程度的分數提升(表4)。

這意味著,在合成數據上的訓練可以提升模型的通用視覺推理能力,從而泛化到其他任務,而非僅僅是擬合訓練場景。

圖片圖片

結論與限制

論文最重要的貢獻在于指出了當前多模態LLM在視覺推理方面的次優表現,并構建了合成數據組成的基準測試集,表明合成數據訓練是一個有前景的解決方案。

與此同時,作者指出了該研究存在的三方面限制:

- 數據合成過程嚴重依賴LLM的代碼合成和推理能力,因此論文只使用了GPT-4等閉源模型。隨著Llama 3等開源模型逐漸提升性能,未來可以利用開源模型合成數據以減少成本

- 本項工作主要用代碼合成8類的抽象圖像,例如表格和地圖,未來可以繼續擴展到用代碼控制機器人仿真器,生成特定的房屋布局和結構

- 我們認為視覺編碼器是當前LLM的瓶頸,尤其是對于抽象圖表而言,因此未來提升編碼器圖像分辨率可以增強LLM的細粒度認知能力

參考資料:

https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/

https://arxiv.org/abs/2407.07053

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-21 08:47:00

2025-01-08 08:21:16

2023-05-08 10:14:07

模型AI

2024-05-20 08:20:00

OpenAI模型

2024-12-18 18:57:58

2024-01-11 16:24:12

人工智能RAG

2023-03-10 13:30:01

微軟人工智能

2023-06-02 13:39:00

GPT-3開源GPU

2023-11-07 18:08:03

GPT-4模型

2025-05-06 08:40:00

2024-11-13 09:39:13

2023-09-19 13:48:31

AI數據

2023-03-10 13:03:09

人工智能模型

2024-01-02 09:16:31

GPT-4推理

2025-05-28 11:55:28

模型AI評估

2024-06-28 18:13:05

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2025-03-23 22:05:22

2024-10-21 13:20:00

視頻數據集

2025-02-27 10:08:19

點贊
收藏

51CTO技術棧公眾號

国产中文字幕在线观看| av黄色一级片| 日本在线免费| 国产伦精品一区二区三区在线观看| 久久久999国产| 亚洲午夜精品在线观看| 黄色漫画在线免费看| 精品少妇一区| 色婷婷综合久久久久中文一区二区 | 欧美激情啊啊啊| 国产精品爱久久久久久久| 不要播放器的av网站| 日本在线视频观看| 91在线小视频| 成人黄色在线观看| 日韩 欧美 中文| 偷拍欧美精品| 亚洲精品一区久久久久久| 日本不卡一区在线| 亚洲深夜视频| 国产传媒日韩欧美成人| 日韩av色在线| 日韩激情在线播放| 久久精品免费一区二区三区| 亚洲精品综合久久中文字幕| 深夜福利网站在线观看| 九九热线视频只有这里最精品| 一区二区三区免费看视频| 日本在线播放一区| 天天爽夜夜爽夜夜爽| 久久99精品一区二区三区| 538国产精品视频一区二区| 国产黄在线免费观看| 国产精品嫩模av在线| 日韩精品一区二区三区中文不卡| 9久久婷婷国产综合精品性色 | 夜夜狠狠擅视频| 性一交一乱一区二区洋洋av| 欧美日韩高清区| 国产一区二区三区视频播放| 免费视频国产一区| 亚洲精品福利在线| 麻豆短视频在线观看| 国产精品色婷婷在线观看| 欧美在线不卡一区| 亚洲大型综合色站| 亚洲精品免费一区二区三区| 亚洲 欧美 日韩 在线| 国产视频一区在线观看一区免费| 欧美人在线视频| 国产大屁股喷水视频在线观看| 久久99国内| 亚洲女同性videos| 国产 欧美 在线| 成人h动漫精品一区二区器材| 在线播放欧美女士性生活| 人妻内射一区二区在线视频| www.综合| 婷婷丁香激情综合| 免费无码不卡视频在线观看| 午夜精品久久久久久久96蜜桃 | 国产精品毛片大码女人| 欧美日韩一区二区三区在线视频| 五月天激情开心网| 99精品视频在线观看免费| 国产一区二区三区四区五区在线| 亚洲国产欧美另类| 国产sm精品调教视频网站| av资源站久久亚洲| 六月婷婷综合网| 99久久久免费精品国产一区二区| 韩国精品一区二区三区六区色诱| 四虎永久在线精品免费网址| 91免费看`日韩一区二区| 久久影院理伦片| 精品免费囯产一区二区三区 | 九九九久久久久久| 国产精品suv一区二区| 亚洲一区二区三区免费在线观看| 日本欧美中文字幕| 中文字幕乱码一区二区| 精品一区二区久久| 高清国产在线一区| 你懂的在线视频| 中文字幕欧美激情| 成年丰满熟妇午夜免费视频 | 日本高清中文字幕二区在线| 麻豆一区二区99久久久久| 国产精品一区二区性色av| 国产精品一级二级| 成人精品一区二区三区四区 | 九九在线高清精品视频| 在线视频日韩精品| 亚洲一区二区三区四区av| 免费污视频在线一区| 欧美日高清视频| 中文字幕第六页| 一区二区三区韩国免费中文网站| 在线视频欧美日韩精品| 国产一级片免费| 天堂蜜桃一区二区三区 | 一区二区精品视频在线观看| 国产mv日韩mv欧美| 青娱乐一区二区| av毛片在线播放| 一本色道久久综合精品竹菊| 日韩高清在线一区二区| 香蕉精品久久| 欧美另类精品xxxx孕妇| 日韩精品成人免费观看视频| 国产麻豆成人精品| 日本在线播放不卡| 超碰在线视屏| 91麻豆精品国产无毒不卡在线观看 | 日韩高清在线| 精品国产精品一区二区夜夜嗨| 久久亚洲AV无码专区成人国产| 欧美福利专区| 国产乱肥老妇国产一区二| 欧美视频xxx| 亚洲欧美怡红院| 日韩一区二区三区资源| xxxx另类黑人| 欧美一级高清片在线观看| 亚洲国产av一区| 999亚洲国产精| 91久久极品少妇xxxxⅹ软件| 99精品久久久久久中文字幕| 久久久精品免费免费| 日本男女交配视频| 伊人亚洲精品| 中文字幕欧美日韩va免费视频| 久久亚洲精品大全| 国产精品一区二区无线| 亚洲7777| 国精产品一区二区三区有限公司| 亚洲精品美女久久久久| 日本少妇色视频| 国内自拍一区| 99国产超薄肉色丝袜交足的后果| 91这里只有精品| 色天天综合久久久久综合片| 国产精彩免费视频| 秋霞影视一区二区三区| 国内精品小视频| yjizz视频| 中文字幕免费高清在线| 国产精品专区在线| 激情婷婷综合网| 国语对白做受xxxxx在线中国 | 老鸭窝91久久精品色噜噜导演| 亚洲永久在线观看| 国产超级va在线视频| 欧美日韩在线播放一区| 激情小视频网站| 精品国产鲁一鲁****| 超在线视频97| 久久免费视频1| 全国男人的天堂网| 亚洲一区二区欧美日韩| 久久久精品免费免费| 日韩欧美一区二区视频在线播放 | 欧美美乳视频| 国产成人综合精品| 番号集在线观看| 欧美性受xxxx| 欧美xxxooo| 国产伦理精品不卡| 成年女人18级毛片毛片免费 | 欧美日韩一区二区三| 欧美在线va视频| 色噜噜久久综合伊人一本| 久久久久久久久久久久久久久| 性欧美videos另类喷潮| 区一区二区三区中文字幕| 成人啊v在线| 日韩一区二区av| 精品人妻一区二区三区日产乱码| 国产精品国产精品国产专区不片| 日本77777| 激情欧美亚洲| 日本一区视频在线播放| 97色婷婷成人综合在线观看| 欧美疯狂性受xxxxx另类| 污视频在线免费观看| 欧美亚洲丝袜传媒另类| 玖玖爱这里只有精品| 99久久精品国产毛片| 啊啊啊国产视频| 欧美日韩亚洲一区三区| 国产精品久久久久久中文字| 国内爆初菊对白视频| 日韩精品亚洲aⅴ在线影院| 国产精品伊人| 一本到12不卡视频在线dvd| 欧美福利在线观看| 五月天婷婷色综合| 九九免费精品视频| 国产鲁鲁视频在线观看免费| 亚洲欧美一区二区三区久本道91| 日韩在线电影一区| 国产精品xxxxxx| 国产成人av影院| 久久精品99国产| 欧美高清一区| 久久精品人人做人人爽电影| 日韩成人在线电影| 97久久久久久| 老司机精品影院| 日韩精品在线观看视频| 一区二区视频在线免费观看| 一区二区激情小说| 国产精品久久久久久久av| 床上的激情91.| 国产九九在线观看| 国产偷自视频区视频一区二区| 伊人久久大香线蕉午夜av| 国产调教精品| 亚洲一区二区三区777| 国偷自产一区二区免费视频| 欧美精品在线免费播放| fc2在线中文字幕| 亚洲成avwww人| 国产精品老熟女视频一区二区| 色综合天天在线| 日本在线免费观看| 亚洲蜜臀av乱码久久精品| 免费一级黄色录像| 97se亚洲国产综合自在线不卡| 久久无码人妻一区二区三区| 日本女人黄色片| 9色国产精品| 亚洲精品天堂成人片av在线播放| 色喇叭免费久久综合网| 日本成人黄色| 亚洲人成精品久久久| 国精产品一区二区| xvideos.蜜桃一区二区| 亚洲jizzjizz日本少妇| 欧美a视频在线| 国产精品久久久久av免费| 牛牛精品一区二区| 高清欧美一区二区三区| 免费网站在线观看人| 欧美老女人在线视频| 国产原创视频在线观看| 久久精品国产免费观看| 久久久久久国产精品免费无遮挡| 中文字幕国产日韩| av播放在线| 中文字幕精品国产| 91免费在线| 日韩中文视频免费在线观看| 天天综合在线视频| 日韩精品视频免费专区在线播放| 神马午夜一区二区| 日韩久久免费电影| 青青久草在线| 亚洲欧洲在线播放| 成在在线免费视频| 中文字幕国产日韩| 国产网友自拍视频导航网站在线观看 | 正在播放亚洲1区| 亚洲一二三四五六区| 欧美日韩网址| 亚洲国产精品无码观看久久| 亚洲福利久久| 亚洲摸摸操操av| 中文字幕 欧美 日韩| 国产传媒欧美日韩成人| 国模私拍在线观看| xfplay精品久久| 在线免费观看视频| 亚洲欧洲成人自拍| 国产精品30p| 欧美午夜久久久| 最近中文字幕在线观看| 欧美一区二区视频观看视频| 日本青青草视频| 一区二区三区四区视频精品免费| 久久精品视频6| 色婷婷av一区| 国内毛片毛片毛片毛片| 色综合久久综合中文综合网| 91porny九色| 91精品国产麻豆国产自产在线 | 老司机免费视频一区二区三区| 天堂中文av在线| 成人高清av在线| 欧美激情亚洲色图| 一区二区视频在线看| www五月天com| 日韩欧美视频一区| 免费在线视频一级不卡| 久久夜色精品国产亚洲aⅴ| 白浆在线视频| 国产日韩在线观看av| 国产乱人伦丫前精品视频| 亚洲成人精品电影在线观看| 欧美三区不卡| 超碰在线播放91| 成人性生交大片免费看视频在线| 中文字幕免费在线看线人动作大片| 亚洲黄色av一区| 午夜视频网站在线观看| 亚洲第一国产精品| 日韩伦理在线观看| 26uuu另类亚洲欧美日本老年| 91成人app| 欧美重口乱码一区二区| 黑丝一区二区三区| 高潮一区二区三区| 久久婷婷久久一区二区三区| 国产探花在线播放| 精品视频在线视频| 天堂av在线播放| 欧美人与性动交| 国产精品白丝久久av网站| 日本不卡免费新一二三区| 国产伊人精品| 亚洲一二区在线观看| 久久色在线观看| 日本中文字幕免费| 日韩欧美高清一区| 日本三级在线播放完整版| 日韩av片永久免费网站| 五月天亚洲色图| 欧美一区二区中文字幕| 高清在线成人网| 免费成人深夜夜行网站| 欧美色图免费看| 国产在线资源| 日韩免费在线播放| 亚洲成aⅴ人片久久青草影院| 国产一线二线三线女| 国产在线精品免费| 中日韩一级黄色片| 欧美高清性hdvideosex| 色的视频在线免费看| 国产精品久久久久久久久粉嫩av| 亚洲宅男一区| 久久久噜噜噜www成人网| a在线播放不卡| 日韩av无码中文字幕| 精品国产a毛片| 99爱在线观看| 九色91视频| 欧美中文字幕| 在哪里可以看毛片| 91福利小视频| www.成人.com| 国产精品自拍偷拍| 99久久www免费| 911av视频| 一区二区三区中文字幕电影| 国产aⅴ爽av久久久久成人| 欧美老女人性生活| 巨人精品**| 日韩黄色片视频| 国产肉丝袜一区二区| 中文字幕在线观看第二页| 俺去了亚洲欧美日韩| 看亚洲a级一级毛片| 日韩精品综合在线| av不卡在线播放| 无码人妻丰满熟妇奶水区码| 亚洲日本aⅴ片在线观看香蕉| 日本美女久久| 一区二区三区日韩视频| 成人中文字幕在线| www.毛片.com| 正在播放欧美视频| 日韩精品亚洲专区在线观看| 精品国产第一页| 久久久久99| 97精品在线播放| 精品国产乱码久久久久久夜甘婷婷| a国产在线视频| 日韩中文一区| 国产精品一区二区免费不卡| 国产午夜精品一区二区理论影院| 日韩精品在线视频美女| 亚洲日日夜夜| 九九爱精品视频| 中文字幕欧美区| 亚洲精品国产精品国| 情事1991在线| 亚洲欧美在线专区| 亚洲一区二区三区综合| 亚洲精品老司机| 天天操天天射天天舔| 国产精品美女免费看| 国内精品美女在线观看| av永久免费观看| 精品久久五月天| 2020国产在线视频| 久久精品国产一区二区三区日韩 | 天天看片天天操| 欧美日韩一区二区精品| 日本电影在线观看网站|