ICML25 視頻問答中以語言為中心的結(jié)構(gòu)化推理
一、前言
由于現(xiàn)有的多模態(tài)大語言模型(MLLM)在推理過程中存在無法控制和不透明的問題,視頻問答(VideoQA)在實(shí)現(xiàn)高級(jí)認(rèn)知推理方面仍然具有挑戰(zhàn)性。為了解決這一問題,嗶哩嗶哩Index團(tuán)隊(duì)聯(lián)合上海交通大學(xué)提出了一種新穎的以語言為中心的樹狀推理(LTR)框架,旨在增強(qiáng)模型的推理能力,該論文已經(jīng)被 ICML2025 收錄,是繼 ICLR2025 的工作(ICLR25 重新思考長(zhǎng)尾識(shí)別中的分類器再訓(xùn)練:標(biāo)簽過平滑可以實(shí)現(xiàn)平衡)之后Index團(tuán)隊(duì)在AI三大頂會(huì)(ICLR/ICML/NeurIPS)的第二項(xiàng)收錄。該框架通過遞歸地將原始問題劃分為邏輯上可處理的子問題,并逐步解決這些子問題,從而提升現(xiàn)有MLLM的推理能力和可解釋性。首先,在第一階段,LTR遞歸地生成一個(gè)以語言為中心的邏輯樹,逐步將復(fù)雜的認(rèn)知問題分解為簡(jiǎn)單的感知性問題,并通過基于檢索增強(qiáng)生成(RAG)的少樣本方法規(guī)劃推理路徑。接著,在第二階段,在視頻內(nèi)容的輔助下,LTR在該邏輯樹中自下而上地進(jìn)行邏輯推理,以推導(dǎo)出最終答案,并附帶可追溯的推理路徑。針對(duì)11個(gè)VideoQA基準(zhǔn)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)表明,與最先進(jìn)的MLLM相比,我們的LTR框架在準(zhǔn)確性和可解釋性方面都有顯著提升。據(jù)我們所知,這是首個(gè)在VideoQA中引入以語言為中心的邏輯樹來指導(dǎo)MLLM推理的工作,為從感知到認(rèn)知的以語言為中心的視頻理解開辟了新路徑。

二、動(dòng)機(jī)
視頻問答(VideoQA)已成為一個(gè)重要的研究領(lǐng)域,并在多模態(tài)理解、交互式人工智能和認(rèn)知科學(xué)中具有廣泛應(yīng)用。其核心挑戰(zhàn)在于如何推動(dòng)以語言為中心的視頻理解,從感知層面邁向認(rèn)知層面。具體而言,低層次的感知涉及對(duì)視頻的時(shí)空特征進(jìn)行理解,例如識(shí)別對(duì)象、動(dòng)作和場(chǎng)景;而高層次的認(rèn)知?jiǎng)t要求系統(tǒng)理解視頻內(nèi)容及提問背后的邏輯結(jié)構(gòu),能夠沿著邏輯鏈條進(jìn)行推理并給出準(zhǔn)確答案。為應(yīng)對(duì)這些挑戰(zhàn),近期研究通過將大型語言模型(LLM)擴(kuò)展為多模態(tài)版本(MLLM),例如 Video-LLaMA [1,2]和 Video-LLaVA [3],將視覺信息與文本信息相結(jié)合。然而,盡管這些模型在回答問題時(shí)可以提供一定的解釋,但如何實(shí)現(xiàn) System-2 推理尚未得到充分探索。其主要局限在于,這類模型的推理過程往往難以控制且透明度不足。這種不透明性使得分析其推理步驟變得困難,從而降低了結(jié)果的可信度。例如,在處理涉及多個(gè)時(shí)序視覺線索的復(fù)雜問題時(shí),模型可能會(huì)給出錯(cuò)誤答案,卻無法展示導(dǎo)致該結(jié)論的推理路徑。因此,用戶無法追溯到推理出錯(cuò)的環(huán)節(jié),也就無法信任這些結(jié)果。
圖1 人類使用System-2思考進(jìn)行復(fù)雜視頻問答的過程
一些先前的工作也探索了解釋性的視頻問答方法,例如 VoT [4] 和 DSTN [5]。VoT 通過在對(duì)象和動(dòng)作層面提供詳細(xì)分析,構(gòu)建了一個(gè)認(rèn)知級(jí)別的推理框架,并基于細(xì)粒度的視頻表示進(jìn)行推理。雖然 VoT 提升了多模態(tài)大語言模型(MLLM)的性能,并提供了額外的推理線索,但它在捕捉問題的邏輯結(jié)構(gòu)和充分闡明推理過程方面仍有所不足。與 VoT 不同,我們的推理框架基于以語言為中心的邏輯樹設(shè)計(jì),提高了可驗(yàn)證性并便于進(jìn)一步的錯(cuò)誤分析。作為另一種方法,DSTN 利用神經(jīng)模塊化網(wǎng)絡(luò)(NMNs)生成一個(gè)程序,然后通過執(zhí)行該程序獲得最終答案。盡管這種方法增強(qiáng)了可驗(yàn)證性,但它缺乏容錯(cuò)性,即程序中的任何錯(cuò)誤都會(huì)導(dǎo)致不可恢復(fù)的錯(cuò)誤答案。相比之下,我們的框架提供了一種軟推理架構(gòu),通過在邏輯推理中補(bǔ)充視頻信息,既保證了可解釋的推理,又提高了容錯(cuò)能力。
三、方法
為了解決這些問題,我們提出了一種新穎的、無需訓(xùn)練且與模型無關(guān)的以語言為中心的樹狀推理(Language-centric Tree Reasoning, LTR)框架,該框架在增強(qiáng)模型推理能力的同時(shí),提高了推理過程的可解釋性和可驗(yàn)證性。我們的框架以語言作為視頻理解的核心驅(qū)動(dòng)力,從問題自身所蘊(yùn)含的邏輯結(jié)構(gòu)出發(fā)。首先,通過整合視頻內(nèi)容,我們從給定的問題遞歸地生成一個(gè)完整的以語言為中心的邏輯樹。該邏輯樹具有兩個(gè)顯著特征:其一,層次化結(jié)構(gòu)能夠明確地呈現(xiàn)原始問題的推理邏輯;其二,葉節(jié)點(diǎn)由簡(jiǎn)單的感知性問題構(gòu)成,使得現(xiàn)有MLLM在感知能力上能夠得到有效利用。為了生成這樣的邏輯樹,MLLM會(huì)遞歸地將問題劃分為更簡(jiǎn)單且邏輯合理的子問題,并判斷這些子問題是否足夠簡(jiǎn)單,以至可以作為葉節(jié)點(diǎn)對(duì)應(yīng)的感知性問題。接著,為了利用生成的以語言為中心的邏輯樹進(jìn)行多模態(tài)的 System-2 推理,我們首先讓MLLM回答所有葉節(jié)點(diǎn)的問題,為后續(xù)的自下而上推理過程建立證據(jù)基礎(chǔ)。然后,在視頻內(nèi)容的輔助下,我們?cè)谶壿嫎鋬?nèi)部遞歸地進(jìn)行自下而上的邏輯推理,通過驗(yàn)證視覺證據(jù)的一致性,將子節(jié)點(diǎn)的回答匯總為父節(jié)點(diǎn)的答案,最終獲得原始問題的解答以及完整且可追溯的推理路徑。該框架的整體結(jié)構(gòu)如圖二所示。
圖2 LTR框架
在第一階段,我們的 LTR 遞歸地將復(fù)雜的認(rèn)知問題拆分為更簡(jiǎn)單的問題,直到它們成為感知性問題。
在第二階段,我們的 LTR 回答這些感知性葉節(jié)點(diǎn)問題,并沿著以語言為中心的邏輯樹自下而上地推理,逐步回到原始問題。
在這兩個(gè)階段中,為了保證框架的泛化性能,避免在特定數(shù)據(jù)上進(jìn)行SFT帶來的泛化性下降,我們將整個(gè)過程建模為無訓(xùn)練(training-free)的形式。具體使用的prompt可以參考論文正文。
四、實(shí)驗(yàn)
我們?cè)?11 個(gè) VideoQA 基準(zhǔn)數(shù)據(jù)集上評(píng)估了 LTR 框架,包括 MSVD-QA [6]、MSRVTT-QA [6]、TGIF-QA [7]、ActivityNet-QA [8]、AGQA-Decomp [9]、NExT-QA [10]、CausalVidQA [11]、STAR [12]、EgoSchema [13]、Video-MME [14]和 MVBench [15]。對(duì)于開放式問答,我們使用 GPT-3.5 對(duì)生成的回答進(jìn)行評(píng)估,采用準(zhǔn)確率和打分指標(biāo);對(duì)于選擇題,我們則使用相應(yīng)的 MLLM 僅基6于問題和生成的回答,從提供的選項(xiàng)中選擇答案。為了展示組合一致性的改進(jìn),我們?cè)?AGQA-Decomp 上采用 VA3(Liao et al., 2024)提供的組合指標(biāo)(cR、cP、c-F1)進(jìn)行評(píng)估。
圖片
表 1. 在 AGQA-Decomp 上關(guān)于準(zhǔn)確率、得分和組合一致性的性能。標(biāo)記為“main”和“sub”的列分別表示在以語言為中心的邏輯樹中針對(duì)根問題和非根問題計(jì)算的相應(yīng)指標(biāo)。藍(lán)色區(qū)域的結(jié)果為我們使用其公開模型權(quán)重和說明復(fù)現(xiàn)所得。
在表 1 中,我們將 LTR 與 9 種基線方法在 AGQA-Decomp 上的性能進(jìn)行了比較。標(biāo)記為“main”和“sub”的列分別表示在以語言為中心的邏輯樹中針對(duì)根問題和非根問題計(jì)算的相應(yīng)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,我們的框架在準(zhǔn)確率、得分和組合一致性方面均顯著優(yōu)于基線方法,這歸功于協(xié)同的組合推理策略。為了評(píng)估組合一致性,我們利用 AGQA-Decomp 測(cè)試集中的有向無環(huán)圖(DAG)進(jìn)行自下而上的樹狀推理。關(guān)于準(zhǔn)確率提升,我們發(fā)現(xiàn)子問題(sub-question)的增益相較于主問題(main-question)更為明顯,這是因?yàn)樽訂栴}相對(duì)更簡(jiǎn)單,更有助于實(shí)現(xiàn)有效推理。此外,cF1 的提升幅度遠(yuǎn)大于準(zhǔn)確率的提升。這一改進(jìn)主要?dú)w功于視頻輔助邏輯推理模塊,該模塊利用結(jié)構(gòu)內(nèi)部的邏輯關(guān)系,使得感知性問題中的問答信息可以沿樹狀結(jié)構(gòu)向上傳播,從而幫助模型回答更多認(rèn)知性問題,進(jìn)而增強(qiáng)主問題與子問題之間的組合一致性。
圖片
表 2. 在 MVBench 上的實(shí)驗(yàn)結(jié)果。白色區(qū)域的結(jié)果來源于相應(yīng)的工作或 MVBench (Li et al., 2024b),藍(lán)色區(qū)域的結(jié)果為我們使用其公開模型權(quán)重和說明復(fù)現(xiàn)所得。
圖片
表 3. 在 Causal-VidQA 上的零樣本性能。D:描述,E:解釋,P:預(yù)測(cè),C:反事實(shí),A:全部。Acc@E 和 Acc@C 分別在 answer 和 reason 設(shè)置下報(bào)告。藍(lán)色區(qū)域的結(jié)果為我們使用其公開模型權(quán)重和說明復(fù)現(xiàn)所得。
圖片
表 4. 在 NExT-QA 上的實(shí)驗(yàn)結(jié)果。D:描述性,T:時(shí)序性,C:因果性。白色區(qū)域的結(jié)果來源于相應(yīng)工作或 VoT(Fei et al., 2024a),藍(lán)色區(qū)域的結(jié)果為我們使用其公開模型權(quán)重和說明復(fù)現(xiàn)所得。
在表 2 到 4 中,我們展示了在三個(gè)基準(zhǔn)(Causal-VidQA、NeXT-QA 和 MVBench)上的零樣本性能對(duì)比,其他基準(zhǔn)的對(duì)比結(jié)果可在論文中找到。總體而言,我們的框架顯著優(yōu)于各基線模型,這一優(yōu)勢(shì)得益于“自頂向下遞歸檢查的劃分”與“自底向上樹狀推理的征服”兩個(gè)協(xié)同階段。將簡(jiǎn)單的感知定位任務(wù)與復(fù)雜的認(rèn)知推理任務(wù)進(jìn)行對(duì)比時(shí),我們發(fā)現(xiàn) LTR 在相對(duì)復(fù)雜的認(rèn)知推理任務(wù)上帶來的提升更為顯著。例如,表 3 中對(duì)于反事實(shí)推理(counterfactual)和預(yù)測(cè)任務(wù)(prediction)的提升幅度在 2.4% 到 4.2% 之間,而對(duì)解釋(explanation)和描述(description)任務(wù)的提升則僅在 0.9% 到 2.1% 之間。這是因?yàn)榍罢咝枰鼜?fù)雜的邏輯推理能力,而我們的以語言為中心的樹狀推理過程能夠系統(tǒng)地支持這種復(fù)雜推理。
具體而言,“自頂向下遞歸檢查的劃分”階段引導(dǎo) MLLM 提取復(fù)雜推理所需的感知信息,而“自底向上樹狀推理的征服”階段則通過遞歸的邏輯推理,逐步匯聚可感知的視覺線索,最終通過分步的復(fù)雜推理推導(dǎo)出答案。正是這兩個(gè)階段的有機(jī)結(jié)合(即 LTR 框架),既提升了 MLLM 的復(fù)雜推理能力,又保持了推理過程的可追溯性。
在 MVBench(表 2)和 NeXT-QA(表 4)中也可以觀察到類似的模式。具體來看,表 2 顯示,在以推理為主的任務(wù)(如反事實(shí)推斷 (CI)、情節(jié)推理 (ER) 和動(dòng)作預(yù)測(cè) (AP))上,性能提升要明顯高于在簡(jiǎn)單感知任務(wù)(如對(duì)象存在 (OE)、動(dòng)作計(jì)數(shù) (AC) 和細(xì)粒度姿態(tài) (FP))上的提升。此外,表 4 證明在因果問題與時(shí)序問題上,相較于描述性問題的提升更大。這些觀察結(jié)果共同表明,LTR 框架對(duì)于 MLLM 的認(rèn)知推理能力的增強(qiáng)遠(yuǎn)超過對(duì)其感知能力的提升。
五、總結(jié)
在本工作中,我們提出了一種新穎的兩階段以語言為中心的樹狀推理(LTR)框架,以增強(qiáng)多模態(tài)大語言模型(MLLM)的推理能力和透明性。在第一階段,LTR 遞歸地生成以語言為中心的邏輯樹,以語言作為核心驅(qū)動(dòng)力,將復(fù)雜的認(rèn)知問題逐步轉(zhuǎn)化為簡(jiǎn)單的感知性問題。在第二階段,在視頻內(nèi)容的輔助下,LTR 在邏輯樹內(nèi)部自下而上地進(jìn)行邏輯推理,通過遞歸方式得出最終答案,并提供完整且可追溯的推理路徑。為了增強(qiáng) MLLM 的邏輯劃分能力,我們采用檢索增強(qiáng)生成(RAG)來指導(dǎo)問題的拆分。跨越 11 個(gè) VideoQA 基準(zhǔn)的大規(guī)模實(shí)驗(yàn)表明,與最先進(jìn)的 MLLM 相比,LTR 框架在準(zhǔn)確性和可解釋性方面均有顯著提升。總體而言,本工作實(shí)現(xiàn)了一個(gè)可追溯的樹狀推理框架,為未來從感知到認(rèn)知的以語言為中心的視頻理解研究鋪平了道路。
參考文獻(xiàn)
[1] Chen, J., Yan, J., Fang, Y., and Niu, L. Meta-point learning and refining for category-agnostic pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 23534–23543, 2024.
[2] Zhang, H., Li, X., and Bing, L. Video-LLaMA: An instruction-tuned audio-visual language model for video understanding. In EMNLP, pp. 543–553, 2023.
[3] Lin, B., Zhu, B., Ye, Y., Ning, M., Jin, P., and Yuan, L. Video-LLaVA: Learning united visual representation by alignment before projection. In EMNLP, 2024.
[4] Fei, H., Wu, S., Ji, W., Zhang, H., Zhang, M., Lee, M. L., and Hsu, W. Video-of-thought: Step-by-step video reasoning from perception to cognition. In ICML, 2024a.
[5] Qian, Z., Wang, X., Duan, X., Chen, H., and Zhu, W. Dynamic spatio-temporal modular network for video question answering. In ACM MM, pp. 4466–4477, 2022.
[6] Xu, J., Mei, T., Yao, T., and Rui, Y. MSR-VTT: A large video description dataset for bridging video and language. In CVPR, pp. 5288–5296, 2016.
[7] Jang, Y., Song, Y., Yu, Y., Kim, Y., and Kim, G. TGIFQA: Toward spatio-temporal reasoning in visual question answering. In CVPR, pp. 1359–1367, 2017.
[8] Yu, Z., Xu, D., Yu, J., Yu, T., Zhao, Z., Zhuang, Y., and Tao, D. ActivityNet-QA: A dataset for understanding complex web videos via question answering. In AAAI, pp. 9127–9134, 2019.
[9] Gandhi, M., Gul, M. O., Prakash, E., Grunde-McLaughlin, M., Krishna, R., and Agrawala, M. Measuring compositional consistency for video question answering. In CVPR, pp. 5046–5055, 2022.
[10] Xiao, J., Shang, X., Yao, A., and Chua, T. NExT-QA: Next phase of question-answering to explaining temporal actions. In CVPR, pp. 9777–9786, 2021
[11] Li, J., Niu, L., and Zhang, L. From Representation to Reasoning: Towards both evidence and commonsense reasoning for video question-answering. In CVPR, pp. 21241–21250, 2022a.
[12] Wu, B., Yu, S., Chen, Z., Tenenbaum, J. B., and Gan, C. STAR: A benchmark for situated reasoning in real-world videos. In NeurIPS, 2023.
[13] Mangalam, K., Akshulakov, R., and Malik, J. EgoSchema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS, pp. 46212–46244, 2023.
[14] Fu, C., Dai, Y., Luo, Y., Li, L., Ren, S., Zhang, R., Wang, Z., Zhou, C., Shen, Y., Zhang, M., et al. Video-MME: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075, 2024
[15] Li, K., Wang, Y., He, Y., Li, Y., Wang, Y., Liu, Y., Wang, Z., Xu, J., Chen, G., Luo, P., et al. MVBench: A comprehensive multi-modal video understanding benchmark. In CVPR, pp. 22195–22206, 2024b.


























