精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare

發布于 2024-4-25 13:21
瀏覽
0收藏

近期,多模態大模型 (MLLM) 在文本中心的 VQA 領域取得了顯著進展,尤其是多個閉源模型,例如:GPT4V 和 Gemini,甚至在某些方面展現了超越人類能力的表現。但是開源模型的性能還遠遠落后于閉源模型,最近許多開創性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已開始關注指令微調數據不足的問題。盡管這些努力取得了顯著的效果,但仍存在一些問題,圖像描述數據和 VQA 數據屬于不同的領域,圖像內容呈現的粒度和范圍存在不一致性。此外,合成數據的規模相對較小,使得 MLLM 無法充分發揮潛力。

8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

  • 論文標題:TextSquare: Scaling up Text-Centric Visual Instruction Tuning
  • 論文地址:https://arxiv.org/abs/2404.12803


為了減少這一差距,來自字節跳動 & 華東師大 & 華中科大的研究員提出了一種新的策略:Square--- 即從先進的閉源 MLLMs 中獲得大量的以文本中心的高質量 VQA 數據,并構建了一個千萬級指令微調數據集(Square-10M)。


VQA 數據生成


Square 策略方法包括四個步驟:自問 (Self-Questioning)、回答 (Self-Answering)、推理 (Self-Reasoning) 和評估 (Self-Evalution)。Self-Questioning 利用 MLLM 在文本圖像分析和理解方面的能力生成與圖像中文本內容相關的問題。Self-Answering 利用各種提示技術,如:思維鏈 CoT 和少樣本,提示回答這些問題。Self-Reasoning 利用 MLLMs 強大的推理能力,生成模型背后的推理過程。Self-Evalution 評估問題的有效性、與圖像文本內容的相關性以及答案的正確性,從而提高數據質量并減少幻覺。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 1 TextSquare 和先進的閉源、開源模型的比較,在 10 個文本相關的 benchmark 上的平均排名超越了 GPT4V(排名 2.2 vs. 2.4)


基于 Square 方法,研究者從各種公共來源收集了一組多樣化的含有大量文本的圖像,包括自然場景、圖表、表單、收據、書籍、PPT、PDF 等構建了 Square-10M,并基于這個數據集訓練了以文本理解為中心的 MLLM TextSquare-8B。


如圖 1 所示,TextSquare-8B 在多個 benchmark 可取得與 GPT4V 和 Gemini 相媲美或更優的效果,并顯著超過了其他開源模型。TextSquare 實驗驗證了推理數據對 VQA 任務的積極影響,證明了其能夠在減少幻覺的同時提升模型性能。


此外,通過利用大規模的數據集,揭示了指令調整數據規模、訓練收斂損失和模型性能之間的關系。盡管少量的指令調整數據可以很好地訓練 MLLM,隨著指令調整數據的不斷擴大,模型的性能能得到進一步增長,指令微調數據和模型之間也存在著相對應的 scaling law。



8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 2 VQA 數據合成的流程,包括數據生成(Self-Questioning、 Answering、Reasoning)、數據過濾(Evaluation)2 個階段 


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 3  Square-10M 的圖像分布和 QA 分布等詳細情況


數據收集


數據收集策略的主要目標是涵蓋廣泛的現實世界文本豐富的場景。為此,研究者收集了 380 萬張的富文本的圖像。這些圖像表現出不同的特性,例如,圖表和表格側重于具有密集統計信息的文本元素;PPT、屏幕截圖和 WebImage 是為文本和突出視覺信息之間的交互而設計的;文檔 / PDF、收據和電子商務包含具有精細和密集文本的圖像;街景源于自然場景。收集到的圖像形成了現實世界中文本元素的映射,并構成了研究以文本為中心的 VQA 的基礎。


數據生成


研究者利用 Gemini Pro 的多模態理解能力從特定數據源選擇圖像,并通過自問、自答、自我推理三個階段生成 VQA 及推理上下文對。


  • Self-Question: 這個階段會給定一些 prompt,Gemini Pro 會根據這些提示對圖像進行全面分析,并根據理解去生成一些有意義的問題。考慮到通用 MLLM 對文本元素的理解能力通常會比視覺模型弱,我們通過專門的 OCR 模型將提取的文本預處理到 prompt 中去。


  • Self-Answering: Gemini Pro對生成問題會利用思維鏈 (CoT) 和少樣本提示 (few-shot prompting) 等技術豐富上下文信息,提高生成答案的可靠性。


  • Self-Reasoning:這個階段會生成答案的詳細原因,迫使 Gemini Pro 更多的思考問題和視覺元素之間的聯系,從而減少幻覺并提高準確的答案。


數據過濾


盡管自我提問、回答和推理是有效的,但生成的圖像 - 文本對可能面臨幻覺內容、無意義問題和錯誤答案。因此,我們設計了基于 LLM 的評估能力的過濾規則,以選擇高質量的 VQA 對。


  • Self-Evaluation提示 Gemini Pro 和其他 MLLMs 判斷生成的問題是否有意義,以及答案是否足以正確解決問題。


  • Multi-Prompt Consistency 除了直接評估生成的內容外,研究者還在數據生成中手動增加提示和上下文空間。當提供不同的提示時,一個正確且有意義的 VQA 對應該在語義上一致。


  • Multi-Context Consistency 研究者通過在問題前準備不同的上下文信息來進一步驗證 VQA 對。


TextSquare-8B


TextSquare-8B 借鑒了 InternLM-Xcomposer2 的模型結構,包括 CLIP ViT-L-14-336 的視覺 Encoder,圖像分辨率進一步提升至 700;基于 InternLM2-7B-ChatSFT 的大語言模型 LLM;一個對齊視覺和文本 token 的橋接器 projector。


TextSquare-8B 的訓練包括三階段的 SFT:

第一階段,以 490 的分辨率全參數 (Vision Encoder, Projector, LLM) 微調模型。

第二階段,輸入分辨率增加到 700,只訓練 Vision Encoder 以適應分辨率變化。

第三階段,進一步以 700 的分辨率進行全參數微調。


TextSquare 證實,在 Square-10M 數據集的基礎上,具有 8B 參數和正常大小圖像分辨率的模型可以在以文本為中心的 VQA 上實現超過了大多數的 MLLM,甚至是閉源模型 (GPT4V、Gemini Pro) 的效果。


實驗結果


圖 4(a)顯示 TextSquare 具有簡單的算術功能。圖 4(b)顯示了理解文本內容并在密集文本中提供大致位置的能力。圖 4(c)顯示了 TextSquare 對表格結構的理解能力。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


MLLM Benchmark


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


  • Document-Oriented Benchmark 在文檔場景的 VQA Benckmark (DocVQA、ChartQA、InfographicVQA) 上平均提升 3.5%,優于所有開源模型,在 ChartQA 數據集上略高于 GPT4V 和 Gemini Pro,該模型分辨率僅 700,小于大多數面向文檔的 MLLM,如果分辨率進一步提高,相信模型性能也將進一步提高,Monkey 已證明這一點。


  • Scene Text-centric Benchmark自然場景的 VQA Benchmark (TextVQA、AI2D) 中取得了 SOTA 的效果,但與 baseline Xcomposer2 相比沒有較大改進,可能是因為 Xcomposer2 已經用了高質量的域內數據進行了充分優化。


  • Table VQA Benchmark 表格場景的 VQA Benchmark (WTQ、TabFact) 中取得到遠超 GPT4V 及 Gemini Pro 的效果,分別超過其他 SOTA 模型 3%。


  • Text-centric KIE Benchmark文本中心的關鍵信息提取 KIE 任務的 benchmark (SROIE、POIE),將 KIE 任務轉換成 VQA 任務,在兩個數據集都取得了最佳的性能,平均提升 14.8%。


  • OCRBench 包括文本識別、公式識別、文本中心 VQA、KIE 等 29 項 OCR 相關的評估任務,取得了開源模型的最佳性能,并成為第一個 10B 左右參數量達到 600 分的模型。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


  • General VQA and Hallucination Evaluation Benchmark在通用的 VQA Benchmark (VizWiz VQAv2、GQA、POPE) 上 TextSquare 相較于 Xconposer2 沒有顯著退化,仍然保持著最佳的性能,在 VisWiz 和 POPE 表現出顯著的性能,比各最佳的方法高出 3.6%,這突出了該方法的有效性,能減輕模型幻覺。


消融實驗


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


TextSquare 相較于 Xcomposer2 在各 benchmark 平均提升 7.7%。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


加入自評估后,模型性能有了明顯提升。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


加入推理數據后有助于顯著提升性能以及減輕幻覺生成。


數據規模和收斂 loss & 模型性能關系


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


隨著數據規模的增長,模型的 loss 繼續減少,而下降速度逐漸變慢。收斂損失和指令調整數據尺度之間的關系近似符合對數函數。


隨著指令調優數據的增長,模型的性能越來越好,但增長速度繼續放緩,也大致符合對數函數。


總體而言,在以文本為中心的 VQA 場景中,在指令調整階段存在相應的縮放定律,其中模型性能與數據縮放的對數成正比,可以指導潛在更大數據集的構建并預測模型性能。


總結


在本文中,研究者提出了構建高質量的以文本為中心的指令調優數據集(Square-10M)的 Square 策略,利用該數據集,TextSquare-8B 在多個 benchmark 上實現了與 GPT4V 相當的性能,并在各種基準測試上大幅優于最近發布的開源模型。


此外,研究者推導了指令調整數據集規模、收斂損失和模型性能之間的關系,以便為構建更大的數據集鋪平道路,證實了數據的數量和質量對模型性能至關重要。


最后,研究者指出,如何進一步提高數據數量和質量以縮小開源模型與領先模型之間的差距,被認為一個有高度希望的研究方向。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/zFsZsEgHtMUJMye_56j9Cw??

收藏
回復
舉報
回復
相關推薦
欧美一级片免费在线| 精品国产露脸精彩对白| 亚洲欧洲精品一区二区三区波多野1战4| 中文字幕精品无| 66国产精品| 日韩av一区在线| 91人人澡人人爽人人精品| 中文字幕中文字幕在线十八区| 成人免费高清在线| 国产精品精品视频| 国产主播在线播放| 日韩精品dvd| 日韩成人激情在线| 午夜影院免费观看视频| 姬川优奈av一区二区在线电影| 亚洲色图视频网站| 日本精品国语自产拍在线观看| 国产色片在线观看| 爽好多水快深点欧美视频| 九九九久久国产免费| 久久久视频6r| 国产精品调教视频| 欧美一级欧美三级| 欧美三级理论片| 国产三级电影在线播放| 亚洲精品国产第一综合99久久 | 伊人久久影院| 在线观看欧美精品| 蜜桃传媒一区二区三区| 国内精品久久久久久野外| 国产婷婷精品av在线| 国模精品娜娜一二三区| 国产叼嘿视频在线观看| 黄一区二区三区| 国产精品久久久久7777婷婷| 日韩免费视频一区二区视频在线观看| 欧美三区美女| 久久亚洲电影天堂| 亚洲人与黑人屁股眼交| 精品视频亚洲| 国产亚洲综合久久| 91精彩刺激对白露脸偷拍| 麻豆国产精品| 6080国产精品一区二区| 日本高清久久久| 日韩成人综合网| 欧美色综合影院| 午夜免费高清视频| 91精品国产66| 欧美伊人久久大香线蕉综合69| 情侣黄网站免费看| 成人性教育av免费网址| 一本一本久久a久久精品综合麻豆| 黄色网页免费在线观看| 九色porny视频在线观看| 午夜私人影院久久久久| 啊啊啊一区二区| 在线观看爽视频| 色婷婷久久99综合精品jk白丝| 欧美成人免费高清视频| 天天综合网天天| 在线免费不卡电影| www.夜夜爽| 国产成人视屏| 精品国产伦一区二区三区免费| 性高潮久久久久久| 国产日韩三级| 亚洲欧美日韩国产中文专区| 亚洲av成人无码久久精品| 久久激情电影| 美日韩丰满少妇在线观看| 免看一级a毛片一片成人不卡| 欧美成人日韩| 91成人在线观看国产| 国产91国语对白在线| 免费亚洲电影在线| 亚洲xxxx做受欧美| 懂色av成人一区二区三区| 91视频你懂的| 亚洲一区尤物| 最新黄网在线观看| 精品人伦一区二区三区蜜桃免费| 欧美三级午夜理伦三级| 日本成人一区二区| 精品奇米国产一区二区三区| 亚洲欧美在线不卡| 日本a级不卡| 欧美激情三级免费| 西西44rtwww国产精品| 奇米亚洲午夜久久精品| 91久久国产综合久久蜜月精品 | 亚洲欧美日韩一区二区在线 | 亚洲女同女同女同女同女同69| 日本黄xxxxxxxxx100| 国产精品粉嫩| 日韩无一区二区| av男人的天堂av| 自由日本语亚洲人高潮| 欧美重口另类videos人妖| 91精品国自产| 91一区在线观看| 欧美aaa在线观看| 依依综合在线| 日韩欧美高清一区| 91成人在线免费视频| 欧美欧美全黄| 国产专区欧美专区| 欧美日本网站| 午夜精品久久久| 一级淫片在线观看| 国产成人三级| 97av视频在线| 国产aⅴ一区二区三区| 国产亚洲精品福利| 99热这里只有精品免费| 97人人做人人爽香蕉精品| 亚洲国产精品va在线看黑人动漫 | 日韩1区在线| 1769国产精品| 亚洲精品久久久久久无码色欲四季 | 欧美精品1区2区3区| 国产精品嫩草av| 午夜精品久久久久99热蜜桃导演| 国产精品日韩欧美综合| 亚洲av片在线观看| 亚洲一二三四在线| 99精品视频国产| 久久日文中文字幕乱码| 日韩男女性生活视频| 天天干天天爽天天操| 亚洲免费观看高清完整版在线观看 | 国产精品我不卡| 在线看三级电影| 在线综合亚洲欧美在线视频| 婷婷综合在线视频| 日韩精品国产欧美| 日韩精品国内| 最新欧美电影| 亚洲午夜国产成人av电影男同| 日韩精品视频免费看| 国产99久久精品| 91视频成人免费| 中文字幕日韩高清在线| 欧美成人激情在线| 国产av精国产传媒| 亚洲综合丁香婷婷六月香| 天堂在线精品视频| 欧美三级黄美女| 国产午夜精品一区| 人成在线免费网站| 国产丝袜一区二区三区| 在线免费观看av网址| 国产清纯在线一区二区www| 毛葺葺老太做受视频| 国产中文字幕一区二区三区 | 久久在线中文字幕| 国产精品网在线观看| 国语自产精品视频在线看一大j8 | 国产在线视频综合| 国产成人在线中文字幕| 97精品久久久| 日韩资源在线| 欧美在线免费视屏| 99久久久无码国产精品不卡| 韩国欧美国产一区| 欧美极品少妇无套实战| 免费看成人人体视频| 日本精品性网站在线观看| 黄色毛片在线看| 欧美日韩视频专区在线播放| 免费三级在线观看| 成人教育av在线| 37pao成人国产永久免费视频| 欧美军人男男激情gay| 91精品国产综合久久久久久蜜臀 | 日韩一区亚洲二区| 99www免费人成精品| 九色porny丨国产首页在线| 国产香蕉一区二区三区在线视频 | 欧美精品久久久久性色| 不卡的av电影| 日本人视频jizz页码69| 欧美国产91| 久久综合中文色婷婷| abab456成人免费网址| 美女999久久久精品视频| 手机看片福利在线| 欧美午夜一区二区| 久久影院一区二区| 国产亚洲一本大道中文在线| 亚洲午夜激情影院| 先锋影音国产一区| 免费成人深夜夜行网站视频| 欧美日韩一区二区三区在线电影| 国产精品电影网| 国产深夜视频在线观看| 中日韩午夜理伦电影免费 | 日本视频在线观看免费| 日韩码欧中文字| av网站免费在线播放| 国产精品主播直播| 日本激情视频在线播放| 亚洲无线一线二线三线区别av| 亚洲精品国产精品国自产| 国产无遮挡裸体免费久久| 国产日韩欧美在线视频观看| 久久久男人天堂| 久久99久久久久久久噜噜| 国产在线中文字幕| 亚洲高清免费观看高清完整版| 亚洲午夜在线播放| 欧美日韩性生活视频| 少妇影院在线观看| 国产精品区一区二区三区| 中文成人无字幕乱码精品区| 国产在线不卡一卡二卡三卡四卡| 人妻有码中文字幕| 亚洲国产精品一区制服丝袜| 中文字幕一区二区三区最新 | 欧美在线一级| 国产97在线|亚洲| av日韩国产| 欧美黑人性生活视频| 看黄网站在线| 在线精品国产成人综合| 日本一区视频| 亚洲精品国产精品国自产观看浪潮| 99视频免费看| 欧美另类一区二区三区| 久久久久久久久久一级| 日韩欧美aaa| 国产 欧美 日韩 在线| 亚洲一区二区三区在线播放| 波多野结衣亚洲色图| 亚洲三级电影网站| 日本成人精品视频| 中文字幕不卡在线播放| 免费看裸体网站| 久久久.com| 真实乱视频国产免费观看| 91视频xxxx| 亚洲精品乱码久久久久久久久久久久| av中文字幕不卡| 亚洲 欧美 日韩在线| 成人av免费观看| 国产黑丝在线观看| 99精品欧美一区二区蜜桃免费 | www.看毛片| 日韩精品一区二区三区四区 | 久久综合色之久久综合| 久久久精品人妻无码专区| 99久久久无码国产精品| chinese麻豆新拍video| 2024国产精品| 性猛交娇小69hd| 中文字幕亚洲在| 欧产日产国产v| 亚洲伊人色欲综合网| 亚洲精品午夜久久久久久久| 精品久久久视频| 波多野结衣一区二区三区在线| 欧美性一级生活| 一级黄色片在线观看| 日韩一区二区三| 国产18精品乱码免费看| 亚洲国产高清福利视频| 猫咪在线永久网站| xxxxx成人.com| 欧美xxx黑人xxx水蜜桃| 2020久久国产精品| 国产成人福利夜色影视| 91牛牛免费视频| 国产精品qvod| 四虎永久在线精品免费一区二区| 围产精品久久久久久久| 国产二区视频在线| 日韩av中文字幕一区二区| 国产一级免费大片| 不卡一区二区中文字幕| 亚洲av毛片基地| 亚洲在线一区二区三区| 五月天婷婷激情| 欧美一级夜夜爽| 三级无遮挡在线观看| 日韩在线观看精品| 国产ktv在线视频| 国产精品日韩av| 女仆av观看一区| 亚洲精品第一区二区三区| 伊人久久婷婷| 久久这里只精品| 99久精品国产| 无码黑人精品一区二区| 色综合久久天天综合网| 99久久精品无免国产免费| 亚洲伦理中文字幕| 中文在线免费| 国产精品精品久久久| 国产精品久久久久av蜜臀| 手机看片福利永久国产日韩| 亚洲五月婷婷| 小早川怜子一区二区三区| 91蜜桃在线免费视频| 国产极品国产极品| 欧洲一区在线电影| 日韩在线观看视频一区二区三区| 最近中文字幕日韩精品| 色网在线免费观看| 99视频网站| 国产精品久久久久久麻豆一区软件| 久久久久免费看黄a片app| 韩国三级中文字幕hd久久精品| 亚洲国产无码精品| 亚洲成人动漫在线观看| 国产伦精品一区二区三区视频痴汉| 亚洲人高潮女人毛茸茸| 久久av色综合| 91影视免费在线观看| 日韩电影免费在线观看| 国产免费人做人爱午夜视频| 成人av网址在线| 欧美精品99久久久| 91精品国产一区二区三区| 婷婷免费在线视频| 国产精品丝袜久久久久久高清 | 老司机av福利| 麻豆精品在线播放| 国产又黄又粗的视频| 色综合色狠狠综合色| 亚洲 欧美 激情 另类| 欧美激情一区二区久久久| 久久久久久亚洲精品美女| 一区二区三区国产福利| 日韩二区三区四区| 欧美特级黄色录像| 色综合视频在线观看| 男人天堂网在线观看| 2020国产精品视频| 校园春色另类视频| 免费无码av片在线观看| 26uuu国产电影一区二区| 国产又大又黑又粗免费视频| 亚洲第一区第二区| 国内激情视频在线观看| 国产在线一区二| 国产日韩1区| 中文字幕日韩三级片| 婷婷丁香激情综合| 天堂视频中文在线| 日本亚洲精品在线观看| 精品成人影院| 污版视频在线观看| 亚洲丝袜另类动漫二区| 精品久久久久成人码免费动漫| 免费av一区二区| 国产成人精品福利| 国产高清精品在线观看| 久久免费视频色| 久久久久精彩视频| 久久深夜福利免费观看| 日本精品一区二区三区在线观看视频| 欧美黄色免费网址| 99免费精品在线观看| 天码人妻一区二区三区在线看| 亚洲日韩欧美视频| 色综合视频一区二区三区44| 国产又粗又爽又黄的视频| 国产1区2区3区精品美女| 97久久久久久久| 一本一本久久a久久精品牛牛影视| 台湾天天综合人成在线| 2021国产视频| 91麻豆精品视频| 伊人影院中文字幕| 欧美精品电影免费在线观看| 精品一区免费| 久久久久久久久久久久久久久国产 | 日本免费新一区视频 | 欧美日韩另类字幕中文| 9i精品一二三区| 97超级碰碰| 欧美亚洲在线| 亚洲天堂网av在线| 亚洲国产精品久久91精品| 色豆豆成人网| 五月天激情图片| 久久久精品免费免费| 国产又粗又猛又黄又爽| 欧美一级大片在线免费观看| 日韩综合一区| 无套内谢大学处破女www小说| 欧美日韩国产首页| 蜜桃视频在线观看播放| 在线精品亚洲一区二区| 99热99精品| www.日日夜夜| 国产精选久久久久久| 最新成人av网站| 蜜臀久久精品久久久用户群体| 精品亚洲va在线va天堂资源站|