精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<ul id="uqyiw"></ul>

<strike id="uqyiw"></strike>

<tr id="uqyiw"><s id="uqyiw"></s></tr>

<th id="uqyiw"></th>

<ul id="uqyiw"></ul>

<strike id="uqyiw"></strike>

<ul id="uqyiw"></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

?TextCoT：放大增強型多模態(tài)富文本圖像理解原創(chuàng) 精華

發(fā)布于 2024-7-15 07:58

瀏覽

0收藏

摘要:大型多模態(tài)模型（Large Multimodal Models, LMMs）的出現(xiàn)引發(fā)了旨在利用其卓越推理能力的研究熱潮。然而，在理解富含文本的圖像方面，要充分發(fā)揮LMMs的潛力仍然存在挑戰(zhàn)，現(xiàn)有的方法在有效處理高分辨率圖像方面面臨困難。為此，我們提出了TextCoT，這是一種針對富含文本圖像理解的新穎連鎖思維（Chain-of-Thought）框架。TextCoT利用LMMs的圖片標注能力來把握圖像的整體情境，并利用其定位能力來檢查局部文本區(qū)域，從而實現(xiàn)全局和局部視覺信息的提取，促進了更精確的問題回答。技術上，TextCoT包含三個階段：圖像概覽、粗略定位和精細觀察。圖像概覽階段提供了對全局場景信息的全面理解，粗略定位階段則根據所提問題大致估算出含有答案的圖像區(qū)域。隨后，結合獲取的全局圖像描述，最終階段進一步審視特定區(qū)域以提供準確答案。我們的方法無需額外訓練，即插即用。在多個先進的LMMs上，針對一系列富含文本的圖像問答基準進行了廣泛實驗，結果顯示了我們方法的有效性和強大的泛化能力。代碼可于??https://github.com/bzluan/TextCoT??獲取。

1. 引言

近年來，大型語言模型（LLMs）領域的突破性進展以驚人的性能徹底改變了自然語言處理（NLP）領域，橫跨廣泛的任務。在基礎LLMs的基礎上，通過將視覺信息整合進LLMs，發(fā)展出了大型多模態(tài)模型（LMMs），使模型能夠從圖像和文本中同時獲取信息。關于LMMs的研究不斷改進模型架構、訓練數據和訓練策略等，從而在多種場景中提高了性能。在多模態(tài)理解領域中，富含文本的圖像研究代表了一個關鍵方向。與一般圖像理解相區(qū)別，此任務的挑戰(zhàn)在于模型需要同時理解圖像中交織的視覺和文本內容。此外，由于文本的存在，這類圖像通常具有更高的分辨率，比如文檔圖像[29]就是例子。

在富含文本的圖像理解領域，通用的大型多模態(tài)模型[32, 33, 63]往往表現(xiàn)不佳。這是因為此類任務的問題答案通常是文本形式的，且常位于圖像的局部區(qū)域，如在高分辨率圖像中識別汽車的車牌號。然而，現(xiàn)有LMMs的輸入分辨率通常被限制在448像素以下，這限制了它們有效處理這類查詢的能力。為了解決這個問題，一些方法選擇開發(fā)高分辨率的視覺編碼器[15]或將圖像分割成多個塊[30, 62]進行單獨的視覺特征編碼。然而，這些解決方案需要額外的訓練，并要求大量資源來收集和構建高分辨率的圖像-文本問答數據集。

在大型語言模型領域，基于連鎖思維（CoT）技術的研究旨在通過無需額外模型訓練的刻意推理步驟來克服問題，并已取得了顯著的性能提升。這些技術可以直接應用于我們富含文本的圖像理解領域。如圖1（b）所示，代表性方法ZS-CoT[22]將逐步推理的過程作為模型的新輸入，從而獲得更準確的響應。然而，ZS-CoT[22]并未實質上解決該任務需要仔細檢查局部區(qū)域的問題。此外，CCoT[40]是一種針對LMMs優(yōu)化的先進CoT方法，通過構建模擬物體間關系的場景圖（如圖1（c）所示）來增強一般場景下的問答能力。但是，CCoT[40]在富含文本的圖像上的表現(xiàn)欠佳，這歸因于構建文本實例的場景圖面臨的挑戰(zhàn)。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

圖1展示了（a）基線LMM、（b）零樣本CoT [22]、（c）CCoT [40]以及（d）我們提出的TextCoT的流程對比。為了更好地理解富含文本的圖像，TextCoT利用LMMs的圖片描述能力和定位能力，分別把握圖像的整體情境和局部文本區(qū)域。

為了解決上述問題，本工作中我們提出了TextCoT，一種針對富含文本圖像理解的新穎連鎖思維框架。我們的想法靈感來源于人類的認知模式。具體而言，在富含文本且無法記住所有細節(jié)的情境下，人們很少主動預測要記憶哪個部分以備后續(xù)提問。相反，一種更直觀的策略是根據問題引導來掃描文本，鎖定可能包含答案的區(qū)域，然后詳細檢查這些細節(jié)以形成回答。為了模仿這種多模態(tài)思維過程，我們開發(fā)了TextCoT。技術上，我們的TextCoT包括三個階段：圖像概覽、粗略定位和精細觀察。圖像概覽的初始階段有助于全面掌握整體場景信息，隨后的粗略定位階段則根據提出的問題估計包含答案的圖像部分。接著，通過整合前期獲得的圖像全局描述，最后階段深入特定區(qū)域以提供精確答案。

為了驗證我們的TextCoT，我們在基于幾種先進LMMs的一系列富含文本的圖像問答基準數據集上進行了廣泛的實驗。定量和定性的結果均展現(xiàn)了我們方法的有效性和強大的泛化能力。我們的貢獻總結如下：

? 我們提出了TextCoT，一種針對富含文本圖像理解的新穎連鎖思維框架。TextCoT利用LMMs的定位能力來檢查特定答案區(qū)域，從而促進更準確和細致的問答。

? 我們嘗試從連鎖思維的角度解決富含文本圖像理解任務中的高分辨率視覺輸入問題。我們的方法無需額外訓練，即插即用。

? 我們基于幾種先進的LMMs，在一系列富含文本的圖像問答基準數據集上進行了廣泛的實驗，以驗證我們的方法。

2. 相關工作

我們的TextCoT是一種多模態(tài)連鎖思維方法，旨在通過有效利用大型多模態(tài)模型（LMMs）的能力來增強其在富含文本場景中的性能。接下來，我們首先回顧大型語言模型（LLMs）和LMMs的研究，然后討論針對LLMs和LMMs的連鎖思維（CoT）文獻。

大型語言模型（LLMs）。隨著Transformer架構強大潛力的展示，大型語言模型徹底改變了自然語言處理（NLP）領域。諸如BERT [14]和T5 [45]這樣的模型，采用編碼器-解碼器架構，為深入理解語言細微差別打下了基礎。GPT3 [7]以其解碼器為中心的設計，在少量樣本和零樣本學習場景中展現(xiàn)出卓越性能，證明了其在廣泛NLP任務上的適應性。PaLM [12]模型通過擴展模型參數和數據集范圍，推動了理解和生成能力的極限。InstructGPT [42]和ChatGPT [41]引入了基于人類反饋的微調和強化學習，顯著提高了交互質量。此后，像LLaMA [48]和Vicuna [11]這樣的開源模型繼續(xù)推進NLP的前沿基準，為未來研究開辟了新路徑。

大型多模態(tài)模型（LMMs）。為了將視覺知識融入大型語言模型，通過集成現(xiàn)有視覺-語言模型的視覺編碼器和LLMs的推理能力，開發(fā)出了大型多模態(tài)模型。通過改進預訓練對齊和指令微調，MiniGPT-4 [69]、LLaVA [32, 33]、InstructBLIP [13]和mPLUG-Owl [63]等眾多研究在各種視覺-語言任務上展示了顯著進步。一些研究 [9, 18, 43, 52]利用物體檢測和文本檢測數據增強了LMMs的定位能力并減少了幻覺。ShareGPT4V [10]通過提高模型標題數據質量，改善了圖像和文本模態(tài)之間的對齊。Vary [54]、V* [57]和DualFocus [8]通過改進模型架構和訓練框架進一步提升了LMMs的基準。

許多LMMs在富含文本的場景中表現(xiàn)不佳，這是由于密集的細粒度信息和高圖像分辨率。為了解決這一問題，UniDoc [16]和mPLUG-DocOwl [61]等研究利用文本相關視覺任務數據集來增強模型在文本豐富場景中的能力。Vary-toy [55]和Qwen-VL [4]通過訓練更大的視覺編碼器增強了對高分辨率圖像理解的能力。UReader [62]、Monkey [30, 35]采用了堆疊多個視覺編碼器的方法來增加模型的輸入分辨率。DocPedia [15]建議使用頻域視覺信息來擴展輸入分辨率同時減少令牌使用。這些方法顯著提高了模型的輸入分辨率，極大地增強了理解文本等細粒度細節(jié)的能力。盡管這些方法通過訓練更復雜的模型架構和視覺任務顯示出了出色的結果，但高質量視覺指令訓練數據的依賴仍然是一個重大挑戰(zhàn)。

思維鏈提示。一系列專注于連鎖思維（CoT）提示方法的研究揭示了大型語言模型的巨大潛力，同時也發(fā)現(xiàn)它們的性能由于不足的提示技術并未完全發(fā)揮。CoT方法在推理階段通過提示控制LLMs和LMMs，無需訓練或微調就能激發(fā)模型的推理潛能。CoT [56]、零樣本CoT [22]、CoT-SC [51]、TOT [60]和GOT [5]等研究揭示了LLMs推理能力的重大提升，奠定了連鎖思維提示的基礎。許多研究 [17, 26, 65]致力于精確操縱提示和訓練過程以增強視覺語言模型的推理能力。隨著LMMs的出現(xiàn)，許多研究聚焦于LMMs的CoT方法，以增強其推理能力。VidIL [53]、DDCoT [68]和Multimodal-CoT [67]利用LMMs的標注和推理能力取得了有希望的結果。CCoT [40]提出使用JSON格式生成場景圖，極大增強了LMMs對圖像中對象關系的理解。CoCoT [66]通過觀察多張圖像間的對比信息增強了LMMs的推理能力。一些研究 [27, 58]通過在圖像上添加網格和點矩陣來增強LMMs的檢測能力。

盡管這些工作在不同方面表現(xiàn)出色，它們各自都有缺點。常規(guī)的LMMs受限于低分辨率，在文本場景中表現(xiàn)不佳，因為它們無法捕捉到細部細節(jié)。高分辨率模型的設計、訓練和微調需要大量資源，并且經常導致在長文本對話和定位任務上的性能下降。當前的多模態(tài)CoT方法未能解決富含文本場景的關鍵問題，跨模態(tài)提示的探索也不足。這突顯了一個當前的研究空白：開發(fā)一種能夠跨視覺和文本模態(tài)進行推理的多模態(tài)CoT方法。

3. 方法

如圖2（左）所示，給定一個全局富含文本的圖像I_g和一個問題Q，一種直接的方法是指導LMMs生成答案A_f。然而，受視覺輸入粒度的限制，LMMs往往難以提供準確的回答。在這項工作中，我們提議利用LMMs檢查特定區(qū)域，從而促進更精確的問題回答。我們提出了TextCoT，一個針對富含文本圖像理解的新穎連鎖思維框架。圖2（右）展示了TextCoT的概覽。接下來，我們將介紹其三個階段，包括（1）圖像總覽、（2）粗略定位和（3）細粒度觀察。

3.1. 圖像總覽

我們的第一步旨在利用LMMs的圖像描述能力，生成一個既簡潔又全面的圖像描述，以此保留圖像中的整體信息。具體而言，如圖2所示，我們使用全局圖像I_g和描述提示P_c來指導LMM，從而獲得描述性答案A_c。這個A_c隨后將在細粒度觀察階段轉換成描述C，為回答給定問題提供全局上下文支持。

近期研究表明[[49, 64]]，大型多模態(tài)模型產生的較長輸出往往會表現(xiàn)出更多的虛構現(xiàn)象，同時較長的輸入提示也會降低性能。因此，如圖2所示，我們在提示P_c中融入了“一句話內”的短語來控制描述的長度。通過這種方式，我們鼓勵生成的描述簡潔、準確，并能概括圖像中描繪的場景。這樣一來，不僅能夠減少不實信息的產生，還能保持模型對輸入的高效處理能力，確保了描述內容的高質量和相關性。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

圖2. 標準單階段LMM（左圖）和我們的TextCoT（右圖）的概述。TextCoT包括三個階段：(1) 圖像概覽，(2) 粗定位，和 (3) 細粒度觀察。前兩個階段分別生成圖像Ig的全局上下文描述Ac和問題Q的答案區(qū)域Ag，從而促進產生更準確的響應Af。

3.2. 粗略定位

我們的第二步目標是利用LMMs的定位能力，在圖像I_g中對答案進行定位。具體來說，如圖2所示，我們使用問題Q、定位提示P_g以及全局圖像I_g來指導LMM，從而生成一個定位答案A_g。這個定位答案包含了答案區(qū)域的邊界框坐標。接著，我們根據這個邊界框裁剪圖像，得到局部圖像I_l。局部圖像I_l在第三階段被用來讓LMM仔細檢查這一特定區(qū)域，從而生成問題Q的正確答案。接下來我們將介紹我們的裁剪策略。

如圖2所示，針對一個全局圖像I_g和定位答案A_g，我們以其邊界框中心點為焦點，延長較短邊以匹配較長邊，這樣得到一個正方形的邊界框，避免了CLIP-ViT[[44, 50]]在調整尺寸操作中可能引起的形變。隨后，我們引入了一個超參數：擴展比率alpha，用于擴大裁剪后的正方形區(qū)域，經驗上設置為1.5。同時，由于LMMs的標準輸入分辨率為336×336或448×448，我們設定最小圖像尺寸為448×448，以防止擴展操作后出現(xiàn)非常小的邊界框。經過上述步驟，我們得到了包含答案的局部區(qū)域圖像I_l，確保它包含足夠的信息以便在后續(xù)階段給出正確回答。如果正方形裁剪超出了圖像邊界，則將其平移以保持在圖像范圍內。

許多現(xiàn)有的LMMs并未使用專為文本檢測設計的數據集進行訓練。它們的定位能力通常是通過在如RefCOCO[[21, 36]]這樣的物體檢測數據集上的訓練習得的。因此，當LMMs被要求在圖像中定位文本時，常常會出現(xiàn)定位不準確的情況。然而，這一局限性并不妨礙我們的方法。我們的TextCoT不需要精確的位置輸出，一個大致的定位就已經足夠。

3.3. 細致觀察

最后階段聚焦于獲取的答案區(qū)域I_l，以生成對問題的準確響應。具體而言，如圖2所述，我們首先在答案描述Ac前添加提示“這是場景的上下文：”，形成描述C。問題Q與第二階段保持一致。任務提示Pt進一步促使模型關注上述上下文C和問題Q。我們的最終文本提示由C、Pt和Q組成。然后，我們用這個文本提示和圖像I_l指導LMM。最終，LMM通過整合圖像I_G中的全局上下文信息及局部圖像I_l中的細致視覺細節(jié)，針對提出的問題Q給出精確答案。

4. 實驗

本節(jié)基于幾項先進的LMMs，在一系列富含文本的圖像問答基準數據集上進行了廣泛實驗。下面，我們首先介紹涉及的LMMs和基準數據集，并進一步展示和討論實驗結果及消融研究。

4.1. 基線LMMs

在我們的實驗中，基于五種知名的LMMs評估了TextCoT，包括LLaVA-1.5-7B [[32]]、LLaVA-1.5-13B [[32]]、SPHINX [[31]]、ShareGPT4V [[10]]和Qwen-VL-Chat [[4]]。我們使用官方實現(xiàn)為這些LMMs執(zhí)行推理。鑒于我們的方法是一種鏈式思考方法，無需對模型架構或推理過程做任何調整。在推理過程中，為了模型輸出的最佳性能和穩(wěn)定性，所有實驗中我們將溫度參數設為0，除CoT-SC [[51]]實驗外，該實驗根據其原始實現(xiàn)設為0.7。下面，我們簡要回顧這些LMMs。

LLaVA-1.5。LLaVA-1.5 [[32]]的模型架構用MLP替換了線性投影，以將視覺特征映射到與LLM共享的嵌入空間。LLaVA-1.5 [[32]]在336×336分辨率下使用CLIP-ViT-L [[44]]作為視覺編碼器，Vicuna [[11]]作為語言解碼器。LLaVA-1.5 [[32]]利用區(qū)域級VQA數據集（Visual Genome [[24]]、RefCOCO [[21, 36]]）增強模型定位精細視覺實例的能力。我們工作中采用LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]]模型進行評估，以驗證我們的TextCoT。我們采用準確性 [[34]] 作為度量標準，即模型生成的響應如果包含地面真值中的字符串，則視為正確。

SPHINX。SPHINX [[31]]引入了權重混合策略，以高效結合領域特定知識，并在指令微調期間解凍其LLM權重。SPHINX [[31]]具有更廣泛的多模態(tài)問答任務，包括區(qū)域級理解、字幕定位和文檔布局檢測。我們在實驗中采用了與LLaVA-1.5 [[32]]相同的度量標準。

ShareGPT4V。ShareGPT4V-7B [[10]]模型遵循LLaVA-1.5 [[32]]的設計。它在預訓練和SFT階段均納入了ShareGPT4V數據集。盡管競爭對手使用更大的訓練數據集或更多參數，ShareGPT4V-7B [[10]]憑借70億參數在大多數多模態(tài)基準測試中表現(xiàn)出色。我們采用了與LLaVA-1.5 [[32]]相同的評估指標。

Qwen-VL-Chat。Qwen-VL-7B [[4]]和Qwen-VL-Chat-7B [[4]]是一系列基于Qwen-7B [[3]]大型語言模型的高度性能和多功能的視覺-語言基礎模型。LLM基礎通過引入新的視覺受體（包括與語言對齊的視覺編碼器和位置感知適配器）增強了視覺能力。對于此模型，我們同樣選擇上述準確性指標[[34]]。

GPT-4V。與之前的模型不同，GPT-4V [[1]]的架構和預訓練細節(jié)未公開。一些技術報告 [[59]] 揭示了GPT-4V [[1]]的卓越性能，包括字幕生成、對象定位和計數。GPT-4V [[1]]展示了直接以文本格式生成邊界框坐標的能效，無需單獨的文本化框令牌。

Claude。Claude 3 [[2]]的架構和預訓練細節(jié)未公開。Claude 3 [[2]]具有以文本格式生成邊界框坐標的能力。我們?yōu)槎ㄐ詫嶒灢捎昧薈laude 3 Opus [[2]]模型，這是最強大的版本。

4.2. 數據集

為了說明TextCoT的強大泛化能力，我們選擇了幾個涵蓋廣泛場景的評估數據集，包括以場景文本為中心的視覺問答、面向文檔的VQA和關鍵信息提取數據集。下面，我們簡要介紹這些數據集。

以場景文本為中心的VQA。TextVQA [[46]]和STVQA [[6]]是場景文本為中心的VQA領域最常用的基準數據集。TextVQA [[46]]基準數據集包含超過45,000個問題，涉及28,000張圖像，這些圖像來自OpenImages [[23]]數據集的不同類別。STVQA [[6]]基準數據集包含超過31,000個問題，涉及從各種公共數據集中收集的23,000張圖像。

面向文檔的VQA。DocVQA [[38]]、InfographicVQA [[39]]和ChartQA [[37]]是三個廣泛使用的面向文檔的VQA任務基準數據集。DocVQA [[38]]數據集包含12,767張不同類型和內容的文檔圖像，以及超過50,000個相關問題和答案。InfographicVQA [[39]]數據集包含5,485張信息圖表圖像的多樣集合，總計有30,035個問題。ChartQA [[37]]數據集包括9,608個手工制作的問題，針對4,804個圖表，以及從17,141個圖表的人類書面摘要生成的23,111個問題。

關鍵信息提?。↘IE）。我們進一步使用了KIE領域常見的三個數據集：SROIE [[19]]、FUNSD [[20]]和POIE [[25]]。SROIE [[19]]數據集包含1,000張掃描收據圖像，專門用于OCR和關鍵信息提取競賽，參與者需識別公司名稱、發(fā)行日期、地址和總支出等重要細節(jié)。FUNSD [[20]]數據集提供了199份真實、完全注釋的掃描表格，可能存在噪聲，因其實際應用中的變化性和潛在模糊性而構成獨特挑戰(zhàn)。POIE [[25]]數據集專注于英文產品營養(yǎng)成分標簽，積累了包含111,155個文本實例的3,000張圖像，主要目標是從這些標簽中提取相關信息。

4.3. 結果

我們首先在上述問答數據集上將我們的方法與基線LMM進行比較，然后與先前的鏈式思考（CoT）方法進行對比。

定量與基線LMM的比較

在表1中，我們評估了五種基線LMM的性能以及集成我們的TextCoT后的性能。評估的LMM涉及不同的模型規(guī)模、訓練數據和架構。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

- 首先，我們的TextCoT顯著提高了幾乎所有八個數據集上五種先進LMM的性能。這一結果驗證了我們逐步審查局部細節(jié)以提供更準確回答的想法。

- 其次，比較架構相同但模型規(guī)模不同的LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]]，我們的TextCoT分別實現(xiàn)了平均精度提升2.51%和3.72%。值得注意的是，更大模型從我們的TextCoT中獲益更多。一個可能的解釋是，較大的模型具有更強的認知和推理能力，從而帶來更大的效益。這一結論也在LLM領域內得到證實[[56]]。

- 第三，將LLaVA-1.5-7B [[32]]與使用高質量帶字幕數據但模型規(guī)模和架構相同的ShareGPT4V [[10]]進行對比，我們的TextCoT分別產生了平均2.5%和5.46%的精度提升。這表明隨著模型中更好的圖文對齊和更高品質的訓練數據，TextCoT的有效性增加。

- 最后，當將TextCoT應用于架構和訓練數據與上述LMM不同的Qwen-VL-Chat [[4]]時，大多數數據集上的性能有所改善。然而，在DocVQA [[38]]和ChartQA [[37]]數據集上觀察到了性能下降。這可歸因于Qwen-VL-Chat [[4]]在這些數據集上進行過訓練，導致其對該提問風格和圖像特征過分熟悉。因此，嘗試通過應用TextCoT改變提問風格時，觀察到了性能下滑。

定性與基線LMM的比較

我們進一步進行了一系列定性對比。如圖3、圖4和圖5所示，我們展示了兩種基線LMM [[10, 32]] 的響應以及集成TextCoT后的增強響應?？梢钥闯?，我們的方法成功地逼近了圖像中的答案區(qū)域，并在場景文本和文檔場景中糾正了基線LMM的不準確回答。此外，我們還在先進的GPT-4V [[1]] 和Claude 3 Opus [[2]] 模型上進行了實驗。如圖6和圖7所示，我們的TextCoT增強了這兩個模型的響應準確性。即使LMM提供的邊界框位置不準確，我們的TextCoT方法也不受這種差異的影響。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

與先前CoT方法的比較

我們還基于LLAVA-1.5-7B [[32]]和ShareGPT4V [[10]]進行了現(xiàn)有CoT方法的性能比較。比較方法包括針對LLMs的ZS-CoT [[22]]和CoT-SC [[51]]，以及針對LMMs的DDCoT [[68]]和CCoT [[40]]。ZS-CoT [[22]]、DDCoT [[68]]和CCoT [[40]]都包括兩個階段，其中ZS-CoT [[22]] 使用“讓我們一步一步思考”的方式。對于CoT-SC [[51]]，我們采樣了5條鏈式思考推理路徑。

表2的結果表明，我們的方法顯著優(yōu)于這些方法。在富含文本的圖像場景中，這些方法未能提高性能，原因在于它們沒有解決對局部和細粒度視覺輸入的需求。相比之下，我們的方法有效地利用了大型多模態(tài)模型（LMMs）的字幕和定位能力，提取全局和局部信息以進行準確回答。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

消融研究

為了驗證我們提出的TextCoT三個階段的有效性，我們在表3和表4中進行了深入的消融實驗。所有消融實驗均基于經典的LLaVA-1.5-7B [[32]]進行，并在八個問答數據集上評估性能。接下來討論結果。

粗定位的影響

我們首先評估了TextCoT的兩階段變體（表3（b）），第一階段預測一個定位答案\(A_g\)，第二階段直接將\(A_g\)輸入LMM。與將圖像\(I_g\)和問題\(Q\)作為輸入的一階段基線方法（表3（a））相比，此變體表現(xiàn)更好。結果突顯了答案區(qū)域線索的重要性。然而，該變體并未充分利用答案區(qū)域提示，模型仍缺乏局部細粒度視覺輸入。

裁剪過程的影響

基于這個兩階段變體（表3（b）），我們進一步引入了圖像裁剪操作，使LMM能夠獲得詳細的局部信息。如表3所示，包含裁剪操作的方法（表3（c））表現(xiàn)更優(yōu)。在與文本相關的VQA任務中的顯著改進表明放大答案區(qū)域顯著增強了對局部細節(jié)的理解。

?TextCoT：放大增強型多模態(tài)富文本圖像理解 -AI.x社區(qū)

圖像概覽的影響

由于執(zhí)行裁剪操作后模型失去了全局上下文信息，只能從裁剪圖像\(I_l\)中提取局部信息。為了解決這個問題，我們加入了全局圖像的字幕，即我們的圖像概覽階段。如表3（d）所示，全球信息的補充進一步提升了性能。這種方法通過文字描述提供全局信息，同時利用局部圖像進行詳細局部信息的提取。這構成了我們的最終TextCoT。

特定裁剪方法的影響

我們進一步對我們的裁剪策略進行了一系列消融研究。如表4所示，我們試驗了嚴格依據定位區(qū)域\(A_g\)裁剪（表4（b）），將邊界框按較長邊對齊擴展為正方形（表4（c）），將邊界框擴展為邊長為較長邊1.5倍的正方形（表4（d）），以及完全不裁剪（表4（e））。

實驗結果表明，我們的TextCoT配置（表4（d））展現(xiàn)出優(yōu)越的性能。這可以歸因于與其它裁剪設置相比，我們的配置保留了足夠的細粒度視覺信息，同時也避免了因裁剪不足而遺漏答案區(qū)域。這一結果也與我們的理念相符。

5. 局限性

我們進一步討論了TextCoT的局限性。首先，盡管我們的方法對模型定位能力中的錯誤顯示出一定的容忍度，但它并不適用于那些缺乏檢測能力的LMM。其次，在某些復雜的表格圖像中，答案經?？缭蕉鄠€不同的區(qū)域，這對模型的定位能力提出了更高的要求。探索如何為這類模型精確提取局部和細粒度的視覺特征是一個有意義的研究課題。第三，我們目前的評估局限于文本領域，從而限制了我們的發(fā)現(xiàn)向其他模態(tài)或領域的普遍適用性。雖然我們當前的研究側重于文本相關任務，未來的努力將旨在開發(fā)能在超越文本領域、適用于多種場景并提升性能的CoT方法。

6. 結論

本文介紹了TextCoT，這是一種針對增強LMM理解富含文本圖像能力而定制的新型鏈式思考框架。我們的方法通過利用LMM的字幕生成和定位能力來提高富含文本圖像的問答準確性，從而允許提取全局和局部的視覺信息。TextCoT與現(xiàn)有LMM架構無縫集成，無需額外訓練即可實現(xiàn)即插即用的功能?；趲追N先進LMM的多樣化富含文本圖像問答基準測試的廣泛實驗，持續(xù)證明了我們TextCoT的有效性和強健的泛化能力。我們的工作朝著釋放LMM理解富含文本視覺數據的全部潛力邁出了重要的一步。未來，我們將專注于為甚至不具備定位能力的LMM開發(fā)方法，并增強它們理解更復雜場景的能力。

Luan B, Feng H, Chen H, et al. TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding[J]. arXiv preprint arXiv:2404.09797, 2024.

University of Science and Technology of China, Merchants Union Consumer Finance Company Limited

本文轉載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/v-cT7pF8TC8_aQuEyWew5w??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-7-16 08:31:40修改

贊

收藏

回復

舉報

回復

相關推薦

蘋果推出多模態(tài)大模型MM1，能解釋圖像和文本數據

laojean ? 3936瀏覽 ? 0回復
ERAGent：集成5個先進組件與技術的增強型RAG Agent，顯著提升3類問答任務效果

PaperAgent ? 5409瀏覽 ? 0回復
STIC：自我訓練增強LVLM對圖像理解的能力

AIGC最前線 ? 3926瀏覽 ? 0回復
開源創(chuàng)新框架MoA，可極大增強大模型的能力

Aceryt ? 4324瀏覽 ? 0回復
TextCoT：放大增強型多模態(tài)富文本圖像理解

AIRoobt ? 5108瀏覽 ? 0回復
檢索增強型多模態(tài)思維鏈推理用于大型語言模型

AIRoobt ? 5215瀏覽 ? 0回復
基于開源AI數據框架LlamaIndex構建上下文增強型LLA應用

51CTO內容精選 ? 6763瀏覽 ? 0回復
微軟開源GraphRAG：極大增強大模型問答、摘要、推理

Aceryt ? 6665瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態(tài)圖像生成模型

Aceryt ? 4161瀏覽 ? 0回復
多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解）

angel ? 6240瀏覽 ? 0回復
RAG+RAU：對檢索增強型語言模型（RALM）進行全面、深入綜述

PaperAgent ? 5128瀏覽 ? 0回復
Emu3：開啟多模態(tài)人工智能新紀元 —— 視頻、圖像、文本三合一模型

穿越時空111 ? 4147瀏覽 ? 0回復
多模態(tài)大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 1.4w瀏覽 ? 0回復
FineMedLM-o1: 基于監(jiān)督微調與測試時訓練的醫(yī)學推理增強型大語言模型

頓數AI ? 4896瀏覽 ? 0回復
時序+圖像+文本，多模態(tài)增強的時序預測模型

海因斯DK ? 1.3w瀏覽 ? 0回復
2025首篇關于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 8067瀏覽 ? 0回復
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 3743瀏覽 ? 0回復
復雜多文本圖像生成；多角色對話視頻生成，唇形同步，身體動作，情感表達

AI研究前瞻 ? 2769瀏覽 ? 0回復
ICML 2025 | 快手&上交提出統(tǒng)一多模態(tài)生成理解模型Orthus：多模態(tài)理解/圖像編輯/圖文交織生成一鍵搞定

AIGCStudio ? 4139瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

基于協(xié)作式語義專家的語言模型微調（AAAI 2025） 3天前發(fā)布
大型語言模型基準測試綜述（2025） 3天前發(fā)布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現(xiàn)當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現(xiàn)堪稱性價比之王！ 0回復

上一篇：圖遇見大型語言模型：進展與未來方向的研究

下一篇：思維樹：利用大型語言模型深思熟慮地解決問題

社區(qū)精華內容

目錄

国产乱人伦丫前精品视频| 性高潮久久久久久久| 国产高清免费观看| 国产精品草草| 日韩精品亚洲精品| 校园春色亚洲色图| 91精品专区| 国产激情视频一区二区在线观看 | 奇米4444一区二区三区| 国产成人手机视频| 少妇一级淫片免费看| 免费av网站大全久久| 久久精品欧美一区二区三区麻豆| 国产精品主播视频| 国产精品免费人成网站酒店| 色综合视频一区二区三区日韩| 亚洲国产日韩精品| 一本一道久久a久久精品综合 | 日韩高清av| 国产一区二区在线免费| 思思久久精品视频| 中文精品久久久久人妻不卡| 九九热线有精品视频99| 欧美色爱综合网| 欧美日韩精品中文字幕一区二区| 国产a级免费视频| 玖玖国产精品视频| 97av在线视频| 天天看片中文字幕| 日韩母乳在线| 精品国产乱码久久久久久蜜臀 | 色噜噜噜噜噜噜| 久久男人av| 日韩一级在线观看| 亚洲午夜日本在线观看| 91免费精品国偷自产在线| 最新中文字幕av| 亚洲老女人视频免费| 日韩三区在线观看| 亚洲天堂av一区二区| 中文字幕在线看片| 婷婷成人综合网| 黄色一级视频播放| 久草免费在线| 国产亚洲人成网站| 欧美极品少妇xxxxⅹ免费视频| 日本美女黄色一级片| 国产日产精品_国产精品毛片| 精品99999| 一级黄色大片儿| av色在线观看| 亚洲一级二级在线| 国产精品日韩三级| 黄网在线免费看| 天天插综合网| 久久福利资源站| 亚洲精品一区二区三区在线观看| 香蕉网在线视频| 爱情电影网av一区二区| 777午夜精品视频在线播放| 亚洲第一狼人区| 亚洲精品555| 日本精品一区二区三区四区的功能| 国产欧美日韩一区| 污视频网站在线免费| 亚洲日本乱码在线观看| 四虎免费在线观看视频| 在线观看操人| 国产精品免费视频观看| 中文字幕日韩精品久久| 亚洲经典一区二区| www.亚洲精品| 欧美在线播放一区二区| 在线观看国产免费视频| 成功精品影院| 日韩精品极品视频| 玖玖爱在线精品视频| 免费一区二区| 一本大道久久a久久精二百| 国产又粗又爽又黄的视频 | 在线国产精品播放| 欧美成年人网站| 亚洲77777| 欧美一级大片在线视频| 精品欧美乱码久久久久久 | **爰片久久毛片| 亚洲黄色av网站| 男人舔女人下部高潮全视频 | av日韩一区二区三区| 无遮挡爽大片在线观看视频| 欧美性猛交xxxxxx富婆| 能看毛片的网站| 亚洲综合福利| 麻豆乱码国产一区二区三区 | 日本一卡二卡在线播放| 国产成人av免费在线观看| 久久99久久99精品免观看软件| 在线一区免费观看| 日本精品一区二区三区在线播放视频| 精产国品一区二区| 亚洲午夜激情影院| 中文字幕91视频| 国产精品久久久久久| 久久亚洲电影天堂| 五月天综合激情| 免费xxxx性欧美18vr| av一区二区三区免费| 亚洲美女性生活| 久久综合成人精品亚洲另类欧美 | 亚洲三级在线免费观看| 日韩中文字幕在线看| 日韩一区二区三区四区视频| 亚洲国内自拍| 国产精品网址在线| 午夜在线视频免费| 一区二区在线观看免费视频播放| 久久久999免费视频| www久久久| 一本色道久久88综合亚洲精品ⅰ| 老熟妇一区二区| 亚洲精品字幕| 成人午夜黄色影院| 牛牛澡牛牛爽一区二区| 一区二区不卡在线视频午夜欧美不卡在 | 久久中文亚洲字幕| 国内精品久久久久久| 国产精品无码一区二区桃花视频| 久久久精品中文字幕麻豆发布| 在线观看亚洲视频啊啊啊啊| av在线资源| 欧美一区二区三区小说| 快灬快灬一下爽蜜桃在线观看| 国产精品久久久久一区二区三区厕所| 中文字幕最新精品| av影院在线| 国产精品一区二区在线观看不卡 | 91免费国产精品| 99精品在免费线偷拍| 亚洲第一网站免费视频| 91视频综合网| 国产一区视频网站| 亚洲欧美综合一区| 超碰97国产精品人人cao| 欧美日本国产一区| 国产chinesehd精品露脸| 99热在线成人| 国产美女搞久久| 黄片毛片在线看| 日韩美女精品在线| 熟妇人妻va精品中文字幕| 国产精品调教| 中文字幕久久亚洲| 中文字幕日产av| 国产人伦精品一区二区| 99蜜桃臀久久久欧美精品网站| 欧洲亚洲成人| 久久久久久久久久久人体| a在线观看视频| 亚洲草久电影| 成人黄色免费在线观看| 国产婷婷视频在线| 欧美一区二区三区不卡| 69xx绿帽三人行| 国产成人小视频| 僵尸世界大战2 在线播放| 国产极品模特精品一二| 久久九九国产精品怡红院| 久久午夜鲁丝片| 国产精品污www在线观看| 伊人网在线综合| 国产真实有声精品录音| 国产精品流白浆视频| 97电影在线观看| 欧美日韩黄视频| 久草视频手机在线| 成人污污视频在线观看| 每日在线观看av| 蜜桃国内精品久久久久软件9| 国语自产精品视频在线看一大j8| 日本在线视频1区| 欧美性xxxx18| 女女互磨互喷水高潮les呻吟| 精品在线一区二区| 99色这里只有精品| 国产日产精品_国产精品毛片| 91精品国产综合久久香蕉| 午夜激情在线| 亚洲男人av在线| 一区二区自拍偷拍| 亚洲综合男人的天堂| 国产偷人妻精品一区| 麻豆91小视频| 国产资源在线免费观看| 自拍偷拍一区| 成人精品网站在线观看| 国产免费拔擦拔擦8x在线播放 | 一区精品在线播放| 国产情侣久久久久aⅴ免费| 麻豆成人在线| 粉嫩av一区二区三区天美传媒| 欧美精品中文字幕亚洲专区| 成人国产精品免费视频| www.超碰在线.com| 亚洲一级二级在线| 欧美xxxx精品| 不卡视频免费播放| 成年人网站大全| 91精品国产视频| 亚洲精品久久久一区二区三区| 精品视频在线观看一区二区| 福利欧美精品在线| 国产免费一区二区三区在线能观看 | 欧美综合激情| 国产精品白丝久久av网站| 欧美中文在线免费| 污的网站在线观看| 中文字幕国内精品| 手机看片福利在线观看| 欧美一区日韩一区| 欧美brazzers| 一区二区三区中文字幕精品精品| 日本猛少妇色xxxxx免费网站| 久久福利视频一区二区| 日韩有码免费视频| 亚洲经典三级| 免费在线观看污污视频| 国产99久久| 国产精品久久久久久免费观看| 国产精品黄色片| 日韩美女福利视频| xxxx视频在线| 欧美成人激情视频免费观看| 日本视频在线| 丝袜亚洲欧美日韩综合| 福利在线观看| 精品福利一区二区三区| 国内老熟妇对白hdxxxx| 欧美乱熟臀69xxxxxx| 中国老头性行为xxxx| 色婷婷av久久久久久久| 800av免费在线观看| 亚洲综合免费观看高清完整版 | 熟妇无码乱子成人精品| 久久99精品久久久久婷婷| 在线免费观看视频黄| 日韩av一区二| 亚洲欧美日韩系列| 爽好多水快深点欧美视频| 色播亚洲视频在线观看| 亚洲精品中文字幕在线播放| 五月天精品在线| 精品久久久久久久久久久久久久久| 欧美日韩一区二区三区在线看| 久久人人97超碰精品888| 欧美精品在线免费观看| 分分操这里只有精品| 少妇太紧太爽又黄又硬又爽| 国产美女av在线| 日本成人三级电影| 精品国模一区二区三区欧美| 免费日本视频一区| 亚洲成在人线av| 日韩精品久久久免费观看| 国产大片aaa| 成人高清免费观看mv| 亚洲成人一区| 免费看的黄色欧美网站| 精品视频一区二区三区免费| 视频一区视频二区视频三区高| 国产在线观看免费av| 在线观看网站免费入口在线观看国内 | 亚洲精品88| 国产99视频在线观看| 亚洲精品555| 99r国产精品视频| 红杏aⅴ成人免费视频| 欧美激情一区二区三区在线视频| 国产成人影院| 中文字幕黄色大片| 最新精品国产| 丰满女人性猛交| 欧美日韩国产精品| 久久久天堂国产精品| 99热精品在线| 亚洲一级片网站| 高清国产一区二区| 日本japanese极品少妇| 中文字幕第一区第二区| 欧美亚洲日本在线| 色综合色综合色综合| 91国内精品久久久| 亚洲黄页视频免费观看| 亚洲免费视频一区二区三区| 久久久久久国产精品| 日日av拍夜夜添久久免费| 91网站免费看| 久草在线成人| 色哟哟免费网站| 伊人久久亚洲热| 青青草原av在线播放| 国产美女在线观看一区| 这里只有久久精品| 一区二区三区在线观看网站| 午夜精品免费观看| 正在播放亚洲一区| 毛片在线能看| 欧美国产第一页| 欧美爱爱视频| 麻豆精品传媒视频| 国产一区二区三区自拍| av网站在线不卡| 99国产精品视频免费观看| 我要看一级黄色录像| 色先锋aa成人| 天堂在线视频免费| 久久九九亚洲综合| 日韩精品一区二区三区av| 国产一区二区视频在线免费观看| 大色综合视频网站在线播放| 六月婷婷在线视频| 日韩国产高清影视| 激情综合激情五月| 亚洲日本va在线观看| 午夜精品久久久久久久蜜桃| 亚洲精品一区二区三区香蕉| av在线免费一区| 日韩av123| 亚洲盗摄视频| 欧美精品久久久久久久免费| 国产盗摄女厕一区二区三区| 深夜福利成人| 亚洲人体大胆视频| 中文字幕欧美日韩| 国产精品国产三级国产| av资源免费观看| 色综合天天综合狠狠| 人妻一区二区三区四区| 色与欲影视天天看综合网| 暧暧视频在线免费观看| 国产精成人品localhost| 超碰成人97| 特色特色大片在线| 蜜桃av噜噜一区| 青青青手机在线视频| 欧美日本一道本| 精品国产丝袜高跟鞋| 91久久久亚洲精品| 亚洲h色精品| 亚洲图片自拍偷拍| 日韩经典中文字幕一区| 少妇搡bbbb搡bbb搡打电话| 亚洲一区视频在线| 少妇高潮一区二区三区69| 91国内在线视频| 久久porn| 国产福利在线| 久久色中文字幕| 青青草免费av| 91精品国产欧美日韩| 色黄网站在线观看| 国产精品xxx在线观看www| 亚洲久久在线| av网站在线不卡| 亚洲精品视频在线观看网站| 亚洲欧美激情另类| 欧美华人在线视频| 四虎4545www国产精品| 一区高清视频| 日韩精品导航| 中文字幕久热精品在线视频| 国产精品无码久久久久| 免费观看中文字幕| 国产老肥熟一区二区三区| 国产大片中文字幕| 亚洲国产成人爱av在线播放| 韩日精品一区二区| 国产一区二区三区四区五区加勒比| 久久久蜜桃一区二区人| 精品国产成人亚洲午夜福利| 欧洲av一区二区嗯嗯嗯啊| 中文字幕在线播放| 国产精品jizz视频| 国产精品草草| 亚洲天堂资源在线| 国产精品小仙女| 无码人妻aⅴ一区二区三区有奶水| 在线观看视频99| 国产精品传媒| 国内外成人免费激情视频| 亚洲色图欧洲色图| 97人妻人人澡人人爽人人精品| 97热精品视频官网| 亚洲成aⅴ人片久久青草影院| 久久久久久综合网| 欧美日韩亚洲天堂| 日本不卡视频| 国产成人成网站在线播放青青| 日韩精品午夜视频| 国产7777777| 亚洲精品mp4|

<samp id="acmg2"></samp>

<strike id="acmg2"></strike><samp id="acmg2"></samp>

<strike id="acmg2"></strike>

<th id="acmg2"></th>