破解多模態(tài)大模型“選擇困難癥”!內(nèi)部決策機制首次揭秘:在沖突信息間瘋狂"振蕩"
多模態(tài)大語言模型(MLLMs)在處理來自圖像和文本等多種來源的信息時能力強大 。
然而,一個關(guān)鍵挑戰(zhàn)隨之而來:當這些模態(tài)呈現(xiàn)相互沖突的信息時(例如,圖像顯示一輛藍色汽車,而文本描述它為紅色),MLLM必須解決這種沖突 。模型最終輸出與某一模態(tài)信息保持一致的行為,稱之為“模態(tài)跟隨”(modality following) 。
以往的研究大多試圖用粗粒度的、數(shù)據(jù)集層面的統(tǒng)計數(shù)據(jù)來衡量這種行為 ,但這忽視了一個至關(guān)重要的因素:模型在進行單模態(tài)推理時,對每個具體案例的“置信度”(即不確定性)是不同的 。
本文的核心論點是,這種宏觀的“模態(tài)跟隨”統(tǒng)計數(shù)據(jù)具有誤導(dǎo)性,因為它混淆了模型的能力和偏好。我們提出,模態(tài)跟隨并非一個靜態(tài)屬性,而是一個動態(tài)過程,它由兩個更深層次的因素相互作用所支配:
相對推理不確定性(Relative Reasoning Uncertainty):在單個具體案例上,模型對文本推理和視覺推理的置信度差距 。固有模態(tài)偏好(Inherent Modality Preference):當模型感知到兩種模態(tài)的不確定性(即推理難度)相等時,其內(nèi)在的、穩(wěn)定的偏向 。

本文的主要作者來自北京大學(xué)、華南理工大學(xué)、佐治亞大學(xué)以及KAUST和MBZUAI。研究團隊的核心成員包括擔(dān)任第一作者的北京大學(xué)博士生張卓然、北京大學(xué)博士生史陽、華南理工大學(xué)的本科生王騰岳以及來自佐治亞大學(xué)的博士生宮熙琳。本文的通訊作者為KAUST王帝老師和MBZUAI胡麗杰老師。
該篇工作的主要貢獻和結(jié)論包括:
(1)構(gòu)建了一個新的玩具數(shù)據(jù)集,可以系統(tǒng)地、獨立地改變視覺和文本輸入的推理難度,從而實現(xiàn)不同難度的多模態(tài)組合輸入。
(2)首次提出將“模態(tài)跟隨”這一外顯行為分解為兩個核心組成部分:案例特定的“相對推理不確定性”和模型穩(wěn)定的“固有模態(tài)偏好” 。這一框架旨在將模型的單模態(tài)能力(反映為不確定性)與其內(nèi)在偏見(固有偏好)清晰地解耦。
(3)實證發(fā)現(xiàn)了一個基本規(guī)律——模型跟隨某一模態(tài)的概率,會隨著該模態(tài)相對推理不確定性的增加而單調(diào)遞減。
(4)該框架提供了一種更合理、更少混淆的“固有偏好”量化方法。研究者將模型偏好定義為該單調(diào)曲線上的“平衡點”(balance point) ——即模型對兩種模態(tài)“同等看待”(50%跟隨概率)時所需的相對不確定性補償值 。這成功地將“固有偏好”從“數(shù)據(jù)集偽影”和“單模態(tài)能力”中分離出來。
(5)深入探究了模型內(nèi)部的決策機制,發(fā)現(xiàn)在“模糊區(qū)域”(即相對不確定性接近模型的“平衡點”)時,模型的逐層預(yù)測會在兩種沖突答案之間表現(xiàn)出強烈的“振蕩”(oscillations)。這種內(nèi)部的猶豫不決,為模型在外部觀察到的平均化選擇行為提供了機制性的解釋。
框架設(shè)計:可控數(shù)據(jù)集與不確定性度量

- 圖1:展示了整個圍繞相對不確定性構(gòu)建的模態(tài)偏好評測框架。*
1. 可控數(shù)據(jù)集
為了系統(tǒng)地驗證假設(shè),研究者必須建立一個受控的實驗環(huán)境。為此,他們構(gòu)建了一個新穎的可控“玩具”數(shù)據(jù)集,其核心特性是能夠通過兩個獨立的設(shè)計等級——視覺難度和文本難度——來系統(tǒng)地、獨立地控制兩種模態(tài)的推理復(fù)雜性,如圖1a所示
- 視覺難度:控制感知的困難度。例如,低難度可能是一個清晰、單獨的紅色方塊,而高難度則可能將其呈現(xiàn)為在多個彩色干擾形狀中被部分遮擋的小物體。
- 文本難度:控制推理的復(fù)雜性。例如,在表達沖突信息(藍色方塊)時,低難度可能是直接陳述(如“方塊是藍色的”),而高難度則需要多步關(guān)系推理(如“方塊的顏色和藍閃蝶翅膀一樣”)。
2. 不確定性度量
雖然設(shè)計等級提供了人類可解釋的難度,但分析需要一個以模型為中心、能反映其自身感知不確定性的指標。為此,研究采用了輸出答案詞元(token)的輸出熵(Entropy)作為精細化的不確定性度量。
低熵值表示一個自信、尖銳的預(yù)測(如“紅色”概率很高),而高熵值則表明模型還在考慮其他替代選項(如“橙色”、“棕色”),反映了其更高的不確定性。隨后的單模態(tài)熵趨勢分析(如圖2所示)有力地證實了這一點:熵值隨著設(shè)計難度的增加而一致上升,驗證了熵作為模型感知不確定性代理指標的有效性。
3. 相對不確定性
為了量化模型在每個沖突案例中的“置信度差距”,研究者引入了“相對單模態(tài)不確定性”。該指標通過一個公式來計算,如圖1c所示,即(文本熵減去視覺熵的差值)除以(兩者之和),最后再進行歸一化處理,從而測量了文本熵和視覺熵之間的歸一化差異。這一指標構(gòu)成了后續(xù)分析的核心。在這個定義下,負值表示模型對文本更自信(即文本更容易),而正值則表示模型對視覺更自信(即視覺更容易)。

圖2:展示構(gòu)造數(shù)據(jù)集上文本和視覺單模態(tài)上的輸出熵隨著難度的變化趨勢。
傳統(tǒng)指標的局限性
研究者首先在構(gòu)建的可控數(shù)據(jù)集上,針對LLaVA和Qwen-VL系列等6個MLLM,使用傳統(tǒng)的宏觀指標(如“文本跟隨率”TFR和“視覺跟隨率”VFR)進行了測試。結(jié)果如圖3所示,發(fā)現(xiàn)了兩種令人困惑的組合模式,充分暴露了這些宏觀指標的局限性。
相似的難度感知,相反的宏觀偏好
首先,當觀察精細化的“相對不確定性”分布時,研究發(fā)現(xiàn)一個普遍趨勢:對LLaVA系列和Qwen2.5-VL等大多數(shù)模型而言,該數(shù)據(jù)集的文本模態(tài)在平均水平上更容易處理(即不確定性更低)。然而,這些模型在宏觀指標上的表現(xiàn)卻截然相反:LLaVA系列呈現(xiàn)出強烈的“文本跟隨”傾向,而Qwen2.5-VL卻顯著地“跟隨視覺”。這就引出了第一個謎題:既然這些模型都感知到文本模態(tài)更簡單、更確定,為什么它們最終的宏觀選擇會完全相反?
相似的宏觀偏好,相反的難度感知
其次,對比Qwen2-VL和Qwen2.5-VL。在宏觀指標上,兩者都表現(xiàn)出“跟隨視覺”的相似傾向(甚至 Qwen2-VL 的視覺傾向更顯著)。然而,它們各自感知的“相對不確定性”分布卻截然不同:
對Qwen2-VL而言,更多的數(shù)據(jù)點落在了“視覺更容易”(即視覺不確定性更低)的區(qū)間;而Qwen2.5-VL面臨的卻是前述的“文本更容易”的分布。
這就引出了第二個謎題:同樣是“跟隨視覺”,Qwen2-VL的行為似乎可以被“選擇更簡單的選項”來解釋,但 Qwen2.5-VL卻是在盡管文本更簡單的情況下,也依然選擇了視覺。
這兩個矛盾共同指向了一個核心問題:導(dǎo)致宏觀指標結(jié)果的根本原因究竟是什么?是一種由數(shù)據(jù)集難度偏向和模型特定能力共同作用下產(chǎn)生的“數(shù)據(jù)集偽影”(dataset artifact),還是一種更深層、更頑固的“固有模態(tài)偏好”(inherent preference)?
傳統(tǒng)的宏觀指標(TFR/VFR)之所以具有誤導(dǎo)性,正是因為它將這兩個完全不同的因素——即模型的“單模態(tài)能力”(反映為感知到的不確定性)和其“固有偏好”——混為一談,從而讓我們無法看清模型決策的真正動機。

圖3a:展示構(gòu)造數(shù)據(jù)集上文本和視覺傳統(tǒng)跟隨指標。
圖3b:展示構(gòu)造數(shù)據(jù)集上文本和視覺單模態(tài)上的相對不確定度分布。
實驗新范式:解耦能力與偏好
為了解決上述矛盾,并揭示被宏觀指標所掩蓋的真實動機,研究者設(shè)計了一種全新的實驗范式。這就好比我們想評估一個學(xué)生是“更偏愛用漢語”還是“更偏愛用英語”答題。這個學(xué)生的漢語能力和英語能力(即“單模態(tài)能力”)可能并不均衡。如果我們只統(tǒng)計他最終用了哪種語言(即傳統(tǒng)的“宏觀指標”),我們可能只是在測量他的能力(他當然會用他更擅長的語言),而不是他內(nèi)心的偏好 。傳統(tǒng)指標錯誤地將這兩個因素混為一談。
正確的做法是,我們應(yīng)該針對每一種難度組合(例如,簡單的漢語 vs. 困難的英語)來觀察他的選擇,從而繪制一條完整的“偏好曲線”。本研究正是采用了這種思路。
研究者不再依賴一個總的“文本跟隨率” ,而是將所有數(shù)據(jù)點根據(jù)其“相對不確定性”(一個量化模型對兩種模態(tài)置信度差距的指標)進行分組。
然后,他們計算了每個“相對不確定性”區(qū)間內(nèi)的“文本跟隨率” 。這相當于以“相對不確定性”為橫軸(歸一化了兩種模態(tài)的難度差異),以“文本跟隨概率”為縱軸,繪制出了一條能反映模型偏好隨相對難度動態(tài)變化的完整曲線。
主要實驗發(fā)現(xiàn)
當在這種歸一化的視圖下重新審視模型時,先前所有的混亂和矛盾都消失了,取而代之的是幾個清晰且統(tǒng)一的結(jié)論,圖4同時展示了在本文構(gòu)造的顏色識別數(shù)據(jù)集和現(xiàn)有的模態(tài)跟隨數(shù)據(jù)集MC^2的顏色識別子集上的文本跟隨占比與相對不確定度分布之間的關(guān)系:
1. 統(tǒng)一的單調(diào)法則
被測試的六個模型,無論其架構(gòu)或規(guī)模如何,都展現(xiàn)出一種驚人的一致性:隨著文本變得相對更難(即其不確定性相較于視覺更高),模型跟隨文本的概率都呈現(xiàn)出平滑且嚴格的單調(diào)遞減趨勢。這一發(fā)現(xiàn)強有力地證實了論文的核心假設(shè):模態(tài)跟隨并非一個固定的屬性,而是一個由相對推理不確定性動態(tài)支配的動態(tài)行為。
2. “平衡點”量化固有偏好
雖然所有模型都遵循這條單調(diào)法則,但它們的曲線在“相對不確定性”軸上的位置各不相同。研究者將曲線穿過50%概率線的那個點定義為“平衡點”。這個“平衡點”提供了一個原則性的、可量化的指標,用以衡量我們之前提到的“固有模態(tài)偏好”。
其含義是:一個平衡點偏向負值(即視覺更容易)的模型,意味著它具有強烈的固有視覺偏好。因為即使文本模態(tài)的確定性顯著高于視覺模態(tài)(即文本更容易),該模型也僅僅是將其視為“旗鼓相當”(50%概率)。反之,平衡點偏向正值則代表固有的文本偏好。
3. 解釋宏觀指標
這個“平衡點”框架最終成功解開了前面提到的兩個謎題:
為何LLaVA和Qwen2.5-VL在相似的難度感知下,表現(xiàn)出相反的偏好?
答案是:因為它們的固有偏好(即“平衡點”)不同。LLaVA系列模型的平衡點接近于零或為正,呈現(xiàn)中性或文本偏好。而Qwen系列模型則具有明確的負值平衡點,顯示出強烈的固有視覺偏好。正是這個在宏觀指標下不可見的“固有偏好”差異,驅(qū)動了它們最終的決策分歧。
為何Qwen2-VL和Qwen2.5-VL在宏觀偏好相似時,其難度感知卻相反?
答案是:這揭示了“數(shù)據(jù)集偽影”。Qwen2-VL的“視覺跟隨”在很大程度上是由其強大的視覺能力所驅(qū)動的——即它真的覺得視覺更容易。而新的曲線圖顯示,Qwen2.5-VL的平衡點實際上更偏向視覺(位置更負),這意味著它擁有更強的固有視覺偏好,因為它即使在文本明顯更容易的情況下,也依然頑固地信任視覺。

圖4a:本文構(gòu)造的構(gòu)造數(shù)據(jù)集上文本跟隨占比與相對不確定度分布之間的單調(diào)關(guān)系。

圖4b:現(xiàn)有真實數(shù)據(jù)集mc^2的顏色識別子集上文本跟隨占比與相對不確定度分布之間的單調(diào)關(guān)系。
內(nèi)部機制:面對不確定的“振蕩”
研究進一步探究了模型內(nèi)部的決策機制:為何模型在接近其“平衡點”時會表現(xiàn)出猶豫和平均化的選擇? 研究者通過采用類似 LogitLens 的技術(shù),逐層探查模型的預(yù)測來進行分析。
清晰區(qū)域 vs. 模糊區(qū)域
研究將輸入分為兩類:當相對不確定性遠離平衡點時,稱為“清晰區(qū)域”(即一個模態(tài)明顯更容易);當相對不確定性接近平衡點時,稱為“模糊區(qū)域”。
內(nèi)部振蕩
研究定義了“振蕩”次數(shù),即模型在信息前向傳播時,其在各層解碼出的最可能預(yù)測答案在“文本答案”和“視覺答案”之間切換的次數(shù)。

圖5:模糊區(qū)域(斜線)vs清晰區(qū)域(空白),模態(tài)輸入沖突(深色)vs無關(guān)沖突(淺色)對比的平均振蕩次數(shù)柱狀圖。
核心發(fā)現(xiàn)
如圖5所示,在所有模型中,當提問的信息在兩個模態(tài)輸入沖突時,“模糊區(qū)域”內(nèi)的振蕩次數(shù)顯著高于“清晰區(qū)域”,且顯著高于無關(guān)沖突時。說明沖突模態(tài)輸入的模糊區(qū)域的選擇搖擺,一定程度來自于這種內(nèi)部的反復(fù)“振蕩”,為模型在外部表現(xiàn)出的猶豫不決提供了機制性的解釋。進一步的 Logit 差異熱圖圖6也證實了這一點:在清晰區(qū)域,模型在淺層就迅速、自信地確定了答案;而在模糊區(qū)域,兩種沖突答案的置信度差異在多層中都保持在零附近,表明模型處于高度不確定的狀態(tài)。

圖6:文本模態(tài)答案與圖像模態(tài)答案logits差值。紅色代表跟隨圖像模態(tài)信心更強,藍色代表跟隨文本,顏色越淺代表越搖擺,縱軸從下往上文本相對不確定度更高(即更難)。
總結(jié)
以往對“模態(tài)跟隨”的研究依賴于粗粒度的數(shù)據(jù)集統(tǒng)計,忽視了單模態(tài)不確定性差異對結(jié)果的影響,并常常將模型的能力與其內(nèi)在偏見混為一談。
本文通過提出一個新框架,將模態(tài)跟隨重新定義為“相對推理不確定性”和“固有模態(tài)偏好”共同作用的動態(tài)過程。研究揭示了一條穩(wěn)健的法則:模型跟隨一個模態(tài)的可能性,會隨著其相對不確定性的增加而單調(diào)下降。同時,“平衡點”為此固有偏好提供了原則性的度量。
此外,通過揭示模型在模糊區(qū)域的內(nèi)部“振蕩”機制,本框架成功地將模型的能力(表現(xiàn)為不確定性)與其偏好(表現(xiàn)為平衡點)分離開來,為理解和改進多模態(tài)大語言模型的決策動態(tài)提供了更清晰的視角。
論文:https://arxiv.org/abs/2511.02243
































