精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態大模型的構成式思維鏈提示 原創

發布于 2024-8-14 06:48
瀏覽
0收藏

??摘要:強大的視覺主干與大型語言模型(LLM)推理的結合,導致大型多模態模型(LMM)成為當前廣泛視覺語言(VL)任務的標準。然而,最近的研究顯示,即使是最先進的LMM,在捕捉屬性和對象之間關系等構成性視覺推理方面仍然存在困難。一種解決方案是利用場景圖(SG)——對象及其關系和屬性的形式化表達,它已廣泛用作連接視覺和文本領域的橋梁。然而,場景圖數據需要場景圖注釋,這在收集方面成本高昂,因此不易擴展。此外,基于SG數據微調LLM可能會導致嚴重遺忘預訓練目標。為了克服這一問題,受到思維鏈方法的啟發,我們提出了組成式思維鏈(CCoT),這是一種新型的零-shot思維鏈提示方法,利用SG表示從LLM中提取組成知識。具體來說,我們首先使用LLM生成一個SG,然后在提示中使用該SG生成響應。通過廣泛的實驗,我們發現提出的CCoT方法不僅改善了在多個視覺語言(VL)組成基準上的LLM性能,還提高了幾種流行LLM在一般多模態基準上的性能,而無需微調或標記的SG ground-truth 。代碼:??https://github.com/chancharikmitra/CCoT??。

1. 簡介

近年來,諸如LLaVA [46]、GPT-4V [55] 和InstructBLIP [16] 等大型多模態模型(LMMs)在視覺和語言(VL)領域展示了令人印象深刻的成果,特別是在多模態推理和視覺問答(VQA)方面 [5, 39, 47, 48, 52]。然而,最近的實證研究 [18, 28, 51] 表明,表現最佳的VL模型傾向于將圖像視為“對象包”。請看圖1中的示例。假設一個VL模型被要求描述提供的圖像。該圖像包含許多物體:筆記本電腦、鼠標、一些書和一張桌子。描述這些物體之間的關系以及它們的重要特征是一個具有挑戰性的問題。因此,我們有動機利用場景圖(SG),它捕捉了對象的重要關系和屬性。例如,LMM使用生成的SG來生成描述:“在一張桌子上,有一本疊在筆記本電腦上的書。”

多模態大模型的構成式思維鏈提示 -AI.x社區

圖 1. 我們的組合鏈式思維(Compositional Chain-of-Thought,CCoT)方法的高級概述。我們的CCoT方法包括一個兩步提示過程:1. 首先,提示大型語言模型(LLM)生成與圖像和任務提示相關的場景圖,如圖中的任務“描述圖像”。2. 隨后,提示LLM使用生成的場景圖、圖像和任務提示作為上下文,結合場景圖中的組合信息,以正確描述復雜場景。

(注釋:

1. Scene Graph Generation(場景圖生成):

- 場景圖是一種數據結構,用于表示圖像中的對象及其相互關系。在CCoT方法中,首先需要生成與圖像和任務提示相關的一個場景圖。

  1. Response Generation(響應生成):

- 在生成了場景圖之后,使用這個場景圖、圖像和任務提示作為上下文,來生成一個響應。這個響應需要結合場景圖中的組合信息,以提供對復雜場景的正確描述。

3. Task Prompt(任務提示):

- 任務提示是指導場景圖生成和響應生成的指令。例如,在圖片中的任務提示是“Describe the image”,即描述圖像。

4. LMM(Language Model Module,語言模型模塊):

- LMM是CCoT方法中的核心組件,負責根據任務提示生成場景圖和響應。在第一步中,LMM被提示生成與圖像和任務相關的一個場景圖;在第二步中,LMM使用生成的場景圖、圖像和任務提示來生成響應。

5. Example Scene Graph(示例場景圖):

- 圖片中給出了一個示例場景圖,展示了一個桌子上有一個筆記本電腦,筆記本電腦上有一摞書和一個粉色鼠標。場景圖中的元素包括“table”(桌子)、“laptop”(筆記本電腦)、“books”(書)和“pink mouse”(粉色鼠標),以及它們之間的關系,如“on”(在...上面)。

6. Figure 1:

- 圖片中的Figure 1展示了CCoT方法的高層次視圖,包括場景圖生成和響應生成的步驟。

總的來說,CCoT方法通過兩步提示過程,利用語言模型模塊來生成場景圖和響應,以實現對復雜場景的描述。這種方法可以提高對圖像內容的理解和描述的準確性。)

理解視覺場景的結構是機器感知的核心問題。視覺場景不僅包括物體,還包括相關的特征和關系,這些對于更好地理解場景的組合性至關重要。在本文中,我們考慮如何最好地改進LMMs的組合性。最近,場景圖(SG)標注——視覺場景的結構化圖表示——已被引入作為強大的VL表示,并在許多前人的工作中得到廣泛探索 [24, 34, 79, 80]。然而,SG數據的可用性不如文本描述,因為獲取SG的成本高且不可擴展。此外,正如[28]所示,在SG數據上訓練可能導致對預訓練目標的遺忘。因此,在本文中,我們提出在沒有標注的場景圖數據和不進行微調的情況下,利用場景圖表示LMMs。

最近,大型語言模型(LLMs)通過結合鏈式思維(CoT)提示方法 [36, 76] 顯示出令人鼓舞的結果。CoT方法使用LLM來執行任務,包括中間推理步驟,無論是零樣本(沒有明確的例子)還是少樣本(有明確的例子)。受此啟發,我們設計了一種零樣本的CoT方法,該方法利用場景圖表示進行多模態和組合視覺推理任務。我們的方法允許我們從LMM中提取比沒有提示時更多的組合知識。接下來,我們問自己,應該如何設計一種CoT提示方法,以利用場景圖而不依賴于真實的SG標注或模型微調。

我們提出的設計方法——組合鏈式思維(CCoT)——可以分為兩步。第一步是生成場景圖,以繞過使用輸入圖像和任務提示(例如,視覺問題)所需的真實SG數據。第二步是使用圖像、任務提示和生成的場景圖來提示LMM以生成響應。在提示中結合場景圖消除了微調的需要,并防止遺忘。我們方法的另一個好處是生成的SG可以描述任何視覺場景,因此使CCoT普遍適用于更廣泛的VL任務。最后,生成的場景圖是圖像的緊湊語言表示,使CCoT成為一種令牌效率高的提示方法。鑒于LMMs由于同時處理圖像和文本輸入而常面臨的有限文本上下文長度,這一點尤為重要。

總而言之,我們的主要貢獻如下:

(i) 我們引入了CCoT,這是一種零樣本鏈式思維方法,利用場景圖表示從LMM中提取組合知識;

(ii) 我們提出的CCoT方法不需要任務特定的微調或標注的SG數據,并且適用于各種不同的LMM架構且易于使用;

(iii) 我們的方法不僅在Winoground和WHOOPS! 等VL組合基準上,而且在SEEDBench、MMBench和LLaVA-Bench-in-the-Wild等一般多模態基準上均顯示出LLaVA-1.5、Instruct-BLIP、SPHINX和GPT-4V的性能提升,突顯了我們方法的有效性。

2. 相關工作

大型多模態模型(LMMs)。LMMs的發展主要得益于將LLMs強大的推理能力 [15, 60, 67] 與現有的VL模型結合起來。一個很好的例子是對比視覺和語言模型 [20, 40, 59],這些模型在連接視覺和語言表示方面邁出了重要的一步。然而,這些方法在直接應用于需要生成組件或更明確的跨模態推理的下游任務(如視覺問答 [5, 23, 29, 31, 52, 61])時有限。解決方案是將LLMs的推理和生成能力應用于文本和視覺信息——從而開發出LMMs。

LMMs直接對嵌入的視覺特征進行推理 [1, 7, 16, 19, 21, 41, 45, 46, 83, 84, 92]。特別重要的是對模型進行視覺指令微調 [46, 89]。受LLMs的文本指令微調 [75] 啟發,視覺指令微調通過向頂級LLMs(如GPT-4 [55])傳遞詳細的文本描述和對象位置信息,已被證明對復雜的視覺任務有效。然而,這種方法需要高質量的訓練數據,而這并不總是可用或可擴展的。在本文中,我們提出了一種不需要訓練數據的方法。

與LMMs類似,另一類多模態方法使用代碼生成作為視覺推理的代理(如ViperGPT [65]、VisProg [22] 和CodeVQA [64]),我們在本文中稱之為視覺程序模型(VPMs)[49, 57, 62, 63, 77]。受神經模塊網絡架構 [3, 4, 33] 啟發,這些架構利用和擴展了視覺推理的組合性質,VPMs建立在無需額外編程的高效現成LLMs的基礎上。值得注意的是,這些方法并不直接對視覺信息進行推理,且受限于它們通過有限上下文提供的精確API或模型。與這些方法不同,我們在此探索了利用場景圖作為視覺和語言領域之間橋梁的LMMs在組合視覺推理中的潛力。

多模態提示方法。 考慮到LLMs和LMMs的日益普及,提示方法對于利用它們的能力至關重要,因為它們能夠精確控制模型輸出并提供使用模型的上下文。更重要的是,提示方法發生在推理時間。它們包括零樣本方法 [35, 69, 71]、少樣本方法 [13, 17, 50, 54]、專家提示 [78] 和鏈式思維(CoT)[76, 87],以及擴展如自一致性 [73]、思維樹(ToT)[81] 和思維圖(GoT)[11, 38, 82] 等更復雜的結構。據我們所知,三種方法——VidIL [74]、DDCoT [91] 和多模態CoT方法 [70, 88]——代表了當前多模態提示的最新技術。VidIL是一種專為視頻設計的架構,具有一個在視頻幀字幕上進行推理的語言模型。同樣,DDCoT設計了其自己的CoT提示方法,而不是明確的視覺特征。最后,多模態CoT利用一個直接對視覺和文本輸入特征進行推理的LMM,但其鏈式思維提示方法需要在真實的自然語言推理上進行微調,這既昂貴又耗時。

CCoT與這些方法的關鍵區別在于,我們在CoT設計中利用生成的SG而不是字幕(生成或收集的真實數據)作為推理步驟。這提高了LMMs的組合性,能夠明確對視覺特征進行推理。此外,我們證明了我們的方法更廣泛地增強了多模態推理。最后,由于CCoT是一種在推理時間使用的零樣本方法,它廣泛適用于各種基于LMMs的架構。

組合性。 組合性,即理解概念是由其各自的子部分和關系組成的,通過對圖像中的對象、關系和屬性進行推理,是視覺概念的寶貴范式。組合性已應用于多個領域,包括:視覺和語言[2, 14, 18, 28, 42, 66, 85]、視覺問答 [29, 37, 52]、視頻理解 [6, 8, 25, 27, 53, 72]、關系推理 [9, 10, 30] 和場景圖 [24, 26, 32, 58, 79]。最近的實證研究 [28, 68, 86, 90] 顯示,即使是最強的LMMs在進行組合視覺理解時也會遇到困難,包括識別對象屬性和對象之間的關系。特別是,研究表明VL模型 [51] 傾向于學習“對象包”表示,使它們的組合性較差。在這項工作中,我們展示了更結構化的CoT方法可以提高LMMs的組合推理能力,通過在組合基準上的改進表現證明了這一點。

3. 組合鏈式思維

為了應對LMMs將圖像視為“對象包”的挑戰,如前人的研究所示,我們的方法引入了一種新穎的方法來增強組合視覺理解。我們首先描述標準的LMM架構(第3.1節)。然后介紹我們兩步鏈式思維方法:第一步是場景圖生成(第3.2節),第二步是響應生成(第3.3節)。我們的方法如圖2所示。

多模態大模型的構成式思維鏈提示 -AI.x社區

圖2. CCoT的完整提示示例。我們提示方法的第一步是根據圖像和文本任務作為背景生成一個場景圖。隨后,通過使用圖像、場景圖、問題和答案提取提示來提示LLM,從中提取答案。我們方法中獨特的提示部分已用粗體標記。

(注釋:

?圖片中展示的是Compositional Chain-of-Thought (CCoT)方法的完整提示示例。CCoT方法通過生成場景圖(Scene Graph)和響應(Response)來提高對圖像的理解和描述的準確性。下面是對圖片中內容的詳細解釋:

1. Scene Graph Generation(場景圖生成):

- 場景圖是一種結構化的數據表示,用于描述圖像中的物體、屬性和它們之間的關系。在CCoT方法中,第一步是生成場景圖。

2. Response Generation(響應生成):

- 在生成場景圖之后,使用場景圖、圖像和任務提示作為上下文,來生成一個響應。這個響應需要結合場景圖中的信息,以提供對問題的正確答案。

3. Task(任務):

- 任務是選擇更準確的描述。這里給出了兩個選項:

- (A) Some books on a laptop(一些書在筆記本電腦上)

- (B) A laptop on some books(一個筆記本電腦在一些書上)

4. Scene Graph in JSON Format(JSON格式的場景圖):

- 場景圖以JSON格式表示,包括以下元素:

- "objects":與回答問題相關的物體,例如 "books"(書)、"laptop"(筆記本電腦)、"mouse"(鼠標)。

- "attributes":物體的屬性,例如鼠標的屬性是 "pink"(粉色),筆記本電腦的屬性是 "gray"(灰色)。

- "relationships":描述物體之間關系的數組,例如 "books" 和 "laptop" 之間的關系是 "on"(在...上面)。

5. Answer Extraction(答案提取):

- 使用圖像、場景圖、問題和答案提取提示,從語言模型模塊(LMM)中提取答案。在本例中,答案是 "A"。

6. Full Prompt Example of CCoT(CCoT的完整提示示例):

- 圖片中的Figure 2展示了CCoT方法的完整提示示例。首先,使用圖像和文本任務作為上下文生成場景圖。然后,通過提示LMM,結合圖像、場景圖、問題和答案提取提示來提取答案。

7. Prompt Sections(提示部分):

- 特別強調的部分是CCoT方法中獨特的提示部分,這些部分使用加粗字體表示。

8. LMM(Language Model Module,語言模型模塊):

- LMM是CCoT方法中的核心組件,負責生成場景圖和響應。在本例中,LMM根據提供的圖像和場景圖,選擇了正確的描述選項 "A"。

總的來說,CCoT方法通過生成場景圖和響應,結合圖像和任務提示,提高了對圖像內容的理解和描述的準確性。在本例中,通過分析圖像和生成的場景圖,LMM能夠正確選擇描述圖像的更準確選項。)

3.1 初步知識

LMMs是直接對視覺和語言模態進行推理的多模態模型。它們通常接收一個圖像 I 和一個關聯的文本形式的任務提示 Pin(例如,問題、字幕生成等)。每種模態然后被編碼到一個共享的嵌入空間,該空間由語言模型 fθ(·)(參數為θ)進行推理。更具體地說,圖像由一個可訓練的視覺編碼器 v?(·)(參數為?)進行編碼,而語言嵌入為 l。給定輸入圖像 I 和輸入任務提示 Pin,語言模型(通常是LLM)然后輸出文本響應 R。

R = fθ(v?(I),l(Pin))

LLM、視覺編碼架構和參數θ、?的預訓練方法在不同模型之間有所不同,但上述總體方法保持不變。

我們提出CCoT,這是一種零樣本鏈式思維提示方法,利用場景圖生成來提高LMMs的組合視覺理解和多模態推理。值得注意的是,這種方法不需要任何微調,因為它純粹是基于提示的。此外,不需要標注的SG,因為該方法是零樣本的。最終,我們的方法圍繞一個場景圖生成提示 Sin 展開,該提示可以集成到 Pin 中,使得LMM能夠輸出一個場景圖 Sg,作為中間的多模態推理步驟,以更好地響應任務提示,如問題、分類或字幕生成。

3.2 第一步:場景圖生成

我們的第一步是生成場景圖 Sg,避免了對真實標注的SG數據的需求。場景圖生成提示 Sin 指導LMM系統地構建一個包含三個關鍵屬性的場景圖:對象、它們的屬性以及它們之間的關系。為了解決“對象包”問題,我們希望不僅僅看到對象(它們是視覺推理的主要單元),還希望看到它們的屬性以及它們之間的交互關系。

在場景圖生成提示 Sin 中,我們進一步將其格式設定為JSON。這種JSON格式的標準化旨在便于LMM的解釋。通過在場景圖中系統地組織視覺信息,包括對象、關系和屬性,我們實現了更結構化和全面的推理。這種結構化方法在圖2中展示。場景圖生成方法是我們工作的核心新貢獻,旨在克服現有多模態推理模型的局限性,增強LMMs的組合理解。

我們包括圖像 I 和任務提示 Pin 以及 Sin,以便生成的場景圖與給定的任務提示相關。這是因為SG本質上是非常長尾的:僅基于圖像生成的場景圖可能會包含與給定任務提示無關的信息。

我們將整個第一個提示給LMM,記為 Pin(1),由輸入圖像 I、任務提示 Pin 和最顯著的場景圖生成提示 Sin(在圖2的場景圖生成部分用紅色顯示)組合而成。完整的提示如下:

Pin(1) = “[I][Pin][Sin]”

其中[·]表示插入提示各個元素的槽。LMM因此生成一個SG如下:

Sg = fθ(v?(I),l(Pin(1)))

3.3 第二步:響應生成

為了繞過微調的需求并因此消除遺忘,我們利用生成的場景圖 Sg 作為中間鏈式思維推理步驟。因此,LMM接收原始任務提示、圖像和相應生成的場景圖作為提示,使這三者共同作為上下文來響應新的任務提示。生成響應的整體輸入提示如下:

Pin(2) = “[I][Sg][C][Pin][E]”

除了輸入圖像 I、原始任務提示 Pin 和生成的場景圖 Sg,我們插入一個上下文句子 C 和一個答案提取句子 E。C簡要地指示LMM使用提供的上下文。具體來說,這被表示為“使用圖像和場景圖作為上下文并回答以下問題:”。最后,雖然LLM文本生成的靈活性是高層次多模態推理的一個很好的建模選擇,但這種靈活性也使得以特定格式生成響應變得困難。例如,許多多模態基準是多項選擇格式。由于我們在這些類型的基準上評估我們的方法,因此需要一個簡短的附加提示 E(通常是一個條件句)以字母形式返回答案。例如,我們的答案提取附加提示“從給定的選擇中直接回答選項的字母”取自LLaVA-1.5 [45],因為它在大型多項選擇基準上已被證明是可靠的。然而,這種方法可以很容易地推廣到其他答案格式,如簡短答案或詳細描述,通過修改或完全刪除 E。因此,LMM生成對原始圖像、任務提示對 (I, Pin) 的最終響應如下:

R = fθ(v?(I),l(Pin(2)))

4. 實驗與結果

我們將CCoT方法應用于四個流行的LMMs:InstructBLIP-13B [16]、LLaVA-1.5-13B [45]、Sphinx [44] 和GPT-4V [55]。我們還在多個基準上評估了我們的方法,重點關注多模態推理和VL組合任務。更多結果可在附錄A中找到。

4.1 實現細節

我們使用PyTorch [56] 實現了CCoT。為了獲取預訓練模型進行評估,我們使用了每個模型的官方實現。盡管不同模型的計算和內存需求不同,我們的提示方法只需要運行這些模型推理所需的基礎設施。更多信息請參閱附錄B。

4.2 數據集

我們工作的目標是證明我們的方法不僅可以提高LMMs的組合視覺理解,還能增強各種視覺與語言任務。在接下來的內容中,我們描述了我們的評估數據集。

VL組合基準。 為了評估我們方法的組合視覺理解,我們考慮了Winoground [68] 和WHOOPS! [12] 基準:

(1) Winoground是一個手工挑選的數據集,旨在測試VL模型的組合視覺理解。每個樣本包含兩張圖像和一對相應的圖像字幕。這兩條字幕在句法上非常相似,但在對象、關系或兩者的語義交換方面有一個關鍵區別。在同一數據集上,Winoground的表現通過三個指標進行評估:

- 文本分數:給定一張圖像,必須識別出正確的字幕。

- 圖像分數:給定一條字幕,必須識別出正確的圖像。

- 組分數:必須正確匹配兩對。

(2)WHOOPS! 也通過違反典型視覺常識的圖像測試組合性。任務種類更廣泛,特別是:

- 解釋生成

- 圖像字幕

- 跨模態匹配

- 組合VQA

我們在數據集的組合VQA部分評估我們的方法。

多模態推理基準。 最近,推出了幾個新基準,專門設計用來評估LMMs的多模態推理能力。在我們的工作中,我們重點關注SEEDBench [39]、MMBench [47] 和LLaVA-Bench In-the-Wild [45]。SEEDBench和MMBench都包括不同的部分,測試一般視覺感知和視覺推理。例如,SEEDBench包含評估LMM實例識別和實例屬性理解能力的感知任務,同時也包含更高階的推理部分,如場景理解和實例交互。MMBench也有類似的部分。我們排除了視頻,評估我們的方法在SEEDBench的圖像部分和MMBench的整體表現。

為了評估不同類型的多模態推理,我們進一步在LLaVA-Bench In-the-Wild上評估了我們的方法,該基準測試LMMs回答視覺問題的詳細長文形式答案的能力。

4.3 模型

在我們的工作中,我們將CCoT方法應用于以下四個流行的LMMs。

LLaVA-1.5:LLaVA [46]架構作為一種強大的最新LMM方法,以其將CLIP視覺特征映射到LLM語言標記共享嵌入空間的簡單線性投影而著稱。LLaVA在一個包含對話、詳細描述和復雜推理響應類型的數據集(LLaVA-Instruct-158k)上進行指令微調,以便比簡單的圖像-文本對有更好的視覺對齊。在我們的工作中,我們評估了改進后的LLaVA-1.5 [45]。與原始架構相比,模型改進包括:(1) 用MLP替代線性投影,(2) 在更多樣化的數據集上進行預訓練。

InstructBLIP:雖然InstructBLIP也使用凍結的視覺編碼器和LLM,但它通過Q-former變壓器計算視覺特征,類似于BLIP-2 [41] 模型,該模型輸出可學習的視覺標記。不同之處在于,InstructBLIP的Q-former還關注任務提示,使得視覺特征具備指令意識。這加上更廣泛的視覺指令調優數據集(包括LLaVA-Instruct-158k),使其在如SEEDBench [39] 等基準上表現優異。

SPHINX:SPHINX [44] 與其他LMMs的兩個關鍵區別在于:(1) 在指令微調期間解凍其LLM權重,(2) 具有更廣泛的多模態問答任務,包括區域級理解、字幕定位、文檔布局檢測和人體姿態估計 [44]。

GPT-4V:與其他三個模型不同,GPT-4V的架構和預訓練細節未公開。然而,使用最先進的GPT-4作為LLM骨干將有助于評估我們的方法在具有更強語言推理能力的LMM上的效果。

4.4 基線

在我們的實驗中,我們將我們的CCoT提示方法與兩種其他提示基線進行了比較,如表1所示。首先,為了評估我們的方法對預訓練LMMs的附加好處,我們的第一個基線是在沒有任何提示工程的情況下應用模型到基準。其次,我們考慮了語言零樣本(ZS)CoT提示方法 [36] 作為基線,以確定CCoT相對于最新CoT提示方法的優勢。該方法分兩步進行:(i) 給定輸入問題和文本,在提示末尾附加推理觸發語“讓我們一步一步思考”,生成回答問題的語言推理。(ii) 因為答案隱含在輸出的推理中,第二步涉及傳遞圖像、問題、第一步的輸出推理和答案提取短語以返回所需格式的響應。我們發現,與原始論文中建議的答案提取短語相比,LLaVA [45]建議的短語在大多數基準上提供了更高的準確性,因此在原始ZS-CoT實現的基礎上進行了這一微小的改動。我們還將我們的工作與最近的最新多模態CoT提示方法MMCoT [88]、DDCoT [91] 和VidIL [74] 在SEEDBench-Image數據集上的表現進行了比較,如表2所示。


多模態大模型的構成式思維鏈提示 -AI.x社區

表1. 在SeedBench、MMBench、Winoground和WHOOPS! 基準上的主要結果表。縮寫:SEEDBench-Image [SEED-I];Winoground文本得分:Wino-Text,圖像得分:Wino-Image,組得分:Wino-Group。與我們的零樣本方法不同,標有?的模型是經過監督和在標注場景圖上微調的。更多結果,請參見附錄A.2。


多模態大模型的構成式思維鏈提示 -AI.x社區

表2. 與多模態CoT方法的比較。TBD實例計數 [IC]、場景理解 [SU]、實例身份 [IId]、實例屬性 [IA]、實例位置 [IL]、空間關系 [SR]、視覺推理 [VR]、文本理解 [TU]、實例交互 [IIn]。注意,?表示MMCoT是一種在ScienceQA上預訓練的微調方法。

4.5 結果

結果如表1所示。我們方法的一個優勢是它可以應用于各種不同的預訓練方法和視覺架構。我們展示了在多個基準上應用CCoT優于基準模型,突顯了我們方法的有效性。在圖3中,我們展示了我們的方法在某些基準上的改進實例以及仍然失敗的情況。更多結果請參見附錄A.2。


多模態大模型的構成式思維鏈提示 -AI.x社區

圖3. 示例輸出。上圖展示了我們的方法在SEEDBench和Winoground上的示例。在左側展示了CCoT的成功案例,而右側展示了失敗案例。更多定性可視化結果,請參見附錄C。

組合視覺理解。對所有四個LMMs的測試結果顯示,使用CCoT相比基線在Winoground和WHOOPS! 基準上有顯著增加。事實上,未進行任何指令微調的GPT-4V-CCoT在Winoground上的表現顯著優于之前的SOTA模型SGVL,該模型在真實的SG標注上進行了微調 [28]。有趣的是,ZS-CoT方法實際上在組合基準的多個分裂中降低了性能,這可能是由于提示中缺乏對視覺信息的考慮,因為它是為LLMs設計的。因此,這些結果證明了CCoT在無需微調或真實標注SG數據的情況下提高LMMs組合視覺推理的有效性。

多模態基準。我們還看到,CCoT在SEEDBench圖像分割、MMBench和LLaVA-Bench In-the-Wild上優于基線。盡管許多LMMs具有各種不同的LLM骨干和預訓練方法,但在SEEDBench上連續最先進模型之間的差異通常為1%或更少。所有CCoT的改進均在1%以上。因此,這些結果是我們方法有利于提高LMMs組合視覺理解和其一般多模態推理能力的有力證據。同樣,ZS-CoT提示在這些基準的許多分裂中實際上對LMMs有害。

4.6 消融實驗

我們在SEEDBench上對我們的LLaVA-1.5-CCoT模型進行了全面的消融研究(見表3)。我們注意到沒有報告實例計數和文本理解(OCR)分裂,因為它們不構成視覺推理。更多消融實驗請參見附錄A.1。

多模態大模型的構成式思維鏈提示 -AI.x社區

表3. SEEDBench-Image上的消融實驗。這張表描述了我們的方法在SEEDBench [39]所有圖像分割上的關鍵分割級別消融結果:實例計數 [IC]、場景理解 [SU]、實例身份 [IId]、實例屬性 [IA]、實例位置 [IL]、空間關系 [SR]、視覺推理 [VR]、文本理解 [TU]、實例交互 [IIn]。W. Avg. 表示加權平均值。

需要邊界框。在我們對生成的SGs的定性探索中,我們發現一些SGs包括對象的邊界框坐標。因此,我們實驗了一個指示LMM在生成的SG中包括所有對象的邊界框坐標的提示(表中顯示為“w\ Object Locations”)。我們發現,在SEEDBench-Image上的加權平均準確率下降了1.6%,這表明要求精確的對象位置對多模態推理任務沒有幫助。

JSON結構增強SG利用。雖然SGs是結構化的視覺表示,但它們可能以多種不同的文本格式出現。因此,我們消融了SG生成提示的JSON格式要求(稱為w/out JSON Format),以評估強制執行特定SG格式是否影響LMMs對內容的使用。我們的結果表明,強制執行如JSON的通用系統格式確實有利(無JSON時下降2.0%)于LMMs最有效地利用SG。

用字幕替換SGs。SGs是視覺信息的高度結構化表示,這使它們區別于簡單的圖像自然語言描述。因此,我們通過生成字幕而不是SGs來消融SG結構的重要性(稱為LLaVA-1.5-Caption-CoT)。我們在表3中發現,生成與我們的SG方法具有相同信息上下文的字幕,但性能下降(比我們的方法低1.4%),這表明SG結構對多模態任務的重要性。

LMM大小。我們還評估了LMM大小的影響。我們發現LLaVA-1.5-7B-CCoT與LLaVA-1.5-7B相比準確率沒有明顯差異(+0.1%)。LLaVA-1.5-13B-CCoT和GPT-4-CCoT的更大增益表明我們的方法對較大模型尺寸最有效。這一點很關鍵,因為我們的零樣本方法相比微調這些較大的LMMs成為相對較不計算昂貴的過程。

SG大小的影響。我們考慮SG的大小如何影響生成的響應,通過比較使用不同標記長度的SG時的準確率。具體來說,我們評估了使用長度為1024(下降0.6%)、512(下降0.5%)和128(下降0.3%)標記的SG時的效果。結果表明,最佳SG大小為256標記。這表明文本SG在小序列長度中封裝有用信息的有效性,同時也證明了一個最小信息量對于正確回答問題是必要的。

5. 結論

我們的研究表明,CCoT方法在從LMM中提取組合信息方面具有顯著潛力。這種提取的知識導致了LMMs在下游任務中組合視覺和多模態推理的增強,而無需微調或依賴真實標注的SG數據。我們的方法通過零樣本方式生成SG,有效地解決了標注SG的可用性問題。使用生成的SG進行鏈式思維推理提示也解決了通過不進行微調導致的災難性遺忘。在組合視覺推理基準(如Winoground和WHOOPS!)以及一般多模態基準(如SEEDBench、MMBench和LLaVA-Bench In-the-Wild)上觀察到的顯著改進,強調了我們方法在多種任務中的有效性。這一點通過我們的消融實驗進一步得到證實,這些實驗揭示了使用結構

化SG而非字幕、利用JSON格式和優化SG長度對增強LMMs的視覺組合和多模態推理的重要性。這些結果共同突顯了我們方法在拓寬LMMs在組合和多模態推理任務中的能力方面的價值。

6. 限制

在這項工作中,我們提出了一種零樣本鏈式思維提示方法,利用場景圖表示進行多模態和組合視覺推理任務。我們展示了在幾種不同的模型和基準上的性能提升。然而,我們的工作有一個核心限制。雖然擴展上下文長度是一個活躍的研究領域,但我們的方法受到LMMs使用的LLMs當前上下文長度的限制。此外,在執行強調語言而非視覺推理的多模態任務(如文檔理解)時,場景圖并不是特別有用的表示。最后,我們不預期此工作會產生負面影響,但如同任何機器學習方法,我們建議謹慎使用。

Mitra C, Huang B, Darrell T, et al. Compositional chain-of-thought prompting for large multimodal models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 14420-14431.

University of California, Berkeley

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:????????https://mp.weixin.qq.com/s/rJVY946mqSTtN4XcX7hmTg??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
九色国产在线观看| 人妻激情偷乱频一区二区三区| 嫩草研究院在线| 日韩极品在线观看| 色偷偷综合社区| 欧美日韩久久婷婷| 韩国成人免费视频| 久久久综合激的五月天| 国产精品aaaa| 欧美极品视频在线观看| 妖精视频一区二区三区免费观看| 欧美午夜寂寞影院| 国产视频在线观看网站| 国产 日韩 欧美 精品| 久久午夜激情| 欧美精品videosex牲欧美| 亚洲专区区免费| 欧美午夜在线播放| 色综合久久久久久久久久久| 91麻豆天美传媒在线| 视频国产在线观看| 麻豆一区二区99久久久久| 性视频1819p久久| 色偷偷www8888| 亚洲区小说区图片区qvod| 51精品秘密在线观看| 亚洲自偷自拍熟女另类| 黄色网在线视频| 国产精品6666| 色综合久久一区二区三区| 日韩欧美一二区| xxxx一级片| 69久成人做爰电影| 亚洲影视资源网| 中文字幕免费在线不卡| 国产在线色视频| 播五月开心婷婷综合| 91精品久久香蕉国产线看观看 | 一区二区三区产品免费精品久久75| 六月婷婷久久| 天堂成人在线视频| 国产suv精品一区二区三区| 成人黄色影片在线| 羞羞色院91蜜桃| 国产欧美综合一区二区三区| 欧美黑人xxxⅹ高潮交| 三级黄色在线观看| 久久精品不卡| 自拍偷拍免费精品| 丁香花五月婷婷| 国产日产精品一区二区三区四区的观看方式 | 天天干天天舔天天射| 国产a区久久久| 亚洲综合成人婷婷小说| 国产乱色精品成人免费视频| 久久国产精品区| 国产中文字幕日韩| 国产精品久久久久久久成人午夜| 久久er精品视频| 成人h片在线播放免费网站| 中文字幕人妻一区二区三区视频| 日韩国产欧美三级| 国产精品人成电影在线观看| 最近中文在线观看| 美女网站视频久久| 成人激情在线观看| 韩日午夜在线资源一区二区| 色哟哟一一国产精品| 91亚洲国产| 久久久黄色av| 激情五月婷婷在线| 亚洲精选在线| 国产97在线|亚洲| 国产精品高清无码| 精品一区二区三区的国产在线播放| 国产精品午夜一区二区欲梦| 6—12呦国产精品| 国产精品一区二区黑丝| 99久久精品无码一区二区毛片 | 日韩精品免费观看| 六月婷婷七月丁香| 俺要去色综合狠狠| 麻豆国产精品va在线观看不卡 | 欧美日韩99| 欧美一级大片在线观看| 岛国av中文字幕| 免费日本视频一区| 91在线看www| 亚洲aaaaaaa| 国产精品欧美久久久久无广告 | 高清全集视频免费在线| 一级中文字幕一区二区| 怡红院av亚洲一区二区三区h| av日韩电影| 这里只有精品99re| 国产精品手机在线观看| 日韩国产综合| 午夜精品久久久久久久99热| 欧美成人一区二区视频| 国产91丝袜在线播放| 欧美日产一区二区三区在线观看| 麻豆视频在线观看免费网站| 亚洲图片自拍偷拍| 欧美国产日韩在线播放| 综合伊人久久| 一区二区欧美日韩视频| 免看一级a毛片一片成人不卡| 老司机久久99久久精品播放免费| 91成人理论电影| 蜜桃av噜噜一区二区三| 日韩综合在线观看| 国产综合色在线视频区| 久久久久资源| 成人免费在线| 在线看一区二区| 最新版天堂资源在线| 日本久久综合| 欧美中文字幕在线播放| 国产美女明星三级做爰| 久久久噜噜噜久久人人看 | 免费在线观看黄| 精品国产福利视频| 日本高清免费观看| jlzzjlzz亚洲女人| 91精品国产高清久久久久久91 | 精品国产三级a∨在线| 超碰aⅴ人人做人人爽欧美| 日韩欧美国产成人一区二区| av在线免费播放网址| 亚洲一区二区三区高清| www.成人av.com| 久久久久久国产精品免费无遮挡| 色狠狠色噜噜噜综合网| 男人的天堂影院| 国产精品av久久久久久麻豆网| 国产成人一区三区| 日韩三级电影网| 天天亚洲美女在线视频| 国产chinesehd精品露脸| 五月婷婷六月综合| 国产精品入口免费视| 黄色片视频在线观看| 疯狂做受xxxx欧美肥白少妇 | 日本一区二区免费在线| 国产l精品国产亚洲区久久| 国产精品99久久免费观看| 欧美成人免费在线观看| 国产精品久久久久久久久毛片 | 亚洲精品国产一区二| 91久久综合| 一级中文字幕一区二区| 妞干网在线免费视频| 天天久久夜夜| 欧美在线亚洲在线| 视频一区二区三区在线看免费看 | 99久久久精品视频| 亚洲成人黄色| 欧美黑人视频一区| 欧美一区二区三区激情| 亚洲地区一二三色| xxxxxx黄色| 午夜在线a亚洲v天堂网2018| 欧美精品尤物在线| 欧美日韩五码| 日韩在线精品一区| 国产黄色小视频在线观看| 亚洲免费在线视频一区 二区| 乳色吐息在线观看| 亚洲午夜伦理| 久久婷婷人人澡人人喊人人爽| 成年美女黄网站色大片不卡| 亚洲一二在线观看| 97成人免费视频| 一区二区免费看| 国产又粗又长又爽| 日韩中文字幕一区二区三区| 国产精品h视频| 亚洲综合影院| 欧日韩不卡在线视频| 大乳在线免费观看| 91精品国产乱| 日韩精品手机在线| 欧美激情一区不卡| 亚洲综合20p| 99综合精品| 新呦u视频一区二区| 色播一区二区| 欧美一级视频免费在线观看| 日本三级在线视频| 亚洲经典中文字幕| 中文字幕你懂的| 一区二区三区免费观看| 这里只有久久精品| 国产经典欧美精品| 欧美成人xxxxx| 91精品99| 日本不卡二区高清三区| 国产一区二区三区国产精品| 奇米四色中文综合久久| 里番在线观看网站| 精品一区二区三区三区| 国产精品人人妻人人爽| 欧美午夜久久久| 91tv亚洲精品香蕉国产一区7ujn| 少妇久久久久久久| 亚洲欧美日韩久久| 中文字幕av网址| 国产乱人伦偷精品视频免下载| 国产免费黄视频| 女人色偷偷aa久久天堂| 日本一区二区久久精品| 91精品短视频| 国产精品自在线| 色在线免费观看| 欧美多人爱爱视频网站| 91这里只有精品| 日韩精品中文字幕在线| 国产成人精品无码高潮| 91激情五月电影| 特一级黄色大片| 亚洲午夜久久久久久久久电影网| 亚洲区一区二区三| 国产欧美综合色| 欧美一区二区三区成人精品| 国产成人8x视频一区二区 | 欧美日韩五码| 秋霞av国产精品一区| 爱情岛亚洲播放路线| 久久久国产一区二区三区| 在线国产91| 一区二区欧美久久| 青青草在线免费视频| 亚洲精品99久久久久中文字幕| 国产色视频在线| 欧美日韩国产另类不卡| 毛片在线免费播放| 色视频一区二区| 激情五月婷婷网| 日韩欧美aⅴ综合网站发布| 日韩成年人视频| 亚洲图片欧美色图| 久草视频在线资源站| 亚洲天堂a在线| 天天操夜夜操av| ●精品国产综合乱码久久久久| 2025韩国大尺度电影| 日本精品一区二区三区在线播放| 国产亚洲一级高清| 国产私拍精品| 在线看国产精品| jyzzz在线观看视频| 亚洲视频在线免费看| 酒色婷婷桃色成人免费av网| 亚洲性69xxxbbb| 日本在线免费播放| 久久九九国产精品怡红院| 国产在线激情视频| 超碰精品一区二区三区乱码| 50度灰在线| 欧美极品第一页| 欧美在线极品| 国产91精品网站| 久久精品超碰| 91亚洲va在线va天堂va国| 日韩欧美中文在线观看| 国产精品久久亚洲| 色综合www| 无码免费一区二区三区免费播放 | 国产911在线观看| 欧美激情日韩| 久久久久久久久久网| 欧美综合国产| 午夜免费福利在线| 狠狠色综合播放一区二区| 91精产国品一二三| 91免费国产在线| 国产人妻大战黑人20p| 亚洲欧洲av另类| 国产精品18p| 在线观看国产日韩| 国产尤物在线观看| 亚洲成人激情在线观看| 久久免费看视频| 久久影视电视剧免费网站| 黄网在线免费看| 国产精品video| 国产成人久久久久| 91看片淫黄大片一级| 无码少妇精品一区二区免费动态| 亚洲欧洲性图库| 日本少妇在线观看| 欧美日韩国产综合久久 | 福利精品一区| 国产精品国产一区二区| 欧美美女一区| 亚洲色成人www永久在线观看| 久久一区激情| 好吊操视频这里只有精品| 国产清纯白嫩初高生在线观看91| 在线免费观看亚洲视频| 欧美三级xxx| 精品人妻无码一区二区三区蜜桃一 | 视频二区在线播放| 成人免费毛片高清视频| 91无套直看片红桃在线观看| 图片区小说区国产精品视频| 亚洲一区二区天堂| 亚洲男人av在线| 精品日韩av| 国产日本欧美视频| 亚洲精品合集| www.av毛片| 国产一区二区三区综合| 国产一区二区三区四区五区六区| 亚洲一区二区三区视频在线| 中文字幕乱码一区二区| 亚洲男人天堂2019| 国产www视频在线观看| 91久久精品日日躁夜夜躁国产| 精品一区亚洲| 日本十八禁视频无遮挡| 国产成人午夜精品5599| 亚洲欧美日韩中文视频| 伦理片一区二区| 国产亚洲短视频| 国产成人精品a视频一区| 欧美一区欧美二区| 成人性生交大片免费看午夜| 97在线视频一区| 中文字幕一区日韩精品| 国产树林野战在线播放| 六月婷婷色综合| 在线免费观看视频| 在线中文字幕一区二区| 欧美偷拍视频| 91极品女神在线| 久久影视三级福利片| 你真棒插曲来救救我在线观看| 国产精品乡下勾搭老头1| 永久av免费网站| 欧美人xxxx| 午夜在线视频播放| 国产精品一区=区| 91日韩视频| 不用播放器的免费av| 中文字幕精品一区二区三区精品| 国产第一页在线观看| 亚洲欧美日韩第一区| 3d欧美精品动漫xxxx无尽| 欧美动漫一区二区| 性欧美videos另类喷潮| 成人无码www在线看免费| 欧美日韩另类视频| 日漫免费在线观看网站| 日韩av黄色在线观看| 精品久久久久久久久久久下田 | 大黄网站在线观看| 国产精品亚洲综合| 在线亚洲伦理| 中国毛片在线观看| 欧美无人高清视频在线观看| 日本美女在线中文版| 91视频免费在线观看| 99热这里只有成人精品国产| 大地资源二中文在线影视观看| 色婷婷久久久久swag精品| 超碰在线国产| 亚洲伊人久久大香线蕉av| 精品999日本| 全黄一级裸体片| 欧美日韩国产一区| 性欧美ⅴideo另类hd| 国产欧美亚洲日本| 老司机午夜精品视频| 国产免费美女视频| 精品国产一区二区三区四区四| 欧美久久天堂| 亚洲最新在线| 成人三级在线视频| 久久久精品毛片| 麻豆成人在线看| 亚洲美女久久| 在线观看日本www| 欧美日韩国产精品一区二区三区四区 | 久久精品视频1| 日韩亚洲欧美中文在线| 成人线上播放| 狠狠热免费视频| 亚洲综合色噜噜狠狠| 蜜桃视频在线播放| 亚洲a级在线播放观看| 翔田千里一区二区| 五月天av网站| 精品视频中文字幕| 精品一区二区三区中文字幕在线| 日韩中文字幕三区| 亚洲欧美日韩国产中文在线| 日本韩国一区| 99re视频在线观看| 免费观看久久久4p|