充分激發(fā)模態(tài)協(xié)作,MokA量身打造MLLM微調(diào)新范式
本文第一作者衛(wèi)雅珂為中國人民大學(xué)四年級博士生,主要研究方向?yàn)槎嗄B(tài)學(xué)習(xí)機(jī)制、多模態(tài)大模型等,師從胡迪副教授。作者來自于中國人民大學(xué)和上海人工智能實(shí)驗(yàn)室。
近年來,多模態(tài)大模型(MLLMs)已經(jīng)在視覺語言、音頻語言等任務(wù)上取得了巨大進(jìn)展。然而,當(dāng)在多模態(tài)下游任務(wù)進(jìn)行微調(diào)時,當(dāng)前主流的多模態(tài)微調(diào)方法大多直接沿用了在純文本大語言模型(LLMs)上發(fā)展出的微調(diào)策略,比如 LoRA。但這種「照搬」 策略,真的適用于多模態(tài)模型嗎?
來自中國人民大學(xué)高瓴人工智能學(xué)院 GeWu-Lab 實(shí)驗(yàn)室、上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)在最新論文中給出了一種全新的思考方式。他們指出:當(dāng)下 MLLMs 微調(diào)方案大多簡單的將單模態(tài)策略遷移至多模態(tài)場景,未結(jié)合多模態(tài)學(xué)習(xí)特性進(jìn)行深入思考。事實(shí)上,在多模態(tài)場景中,單模態(tài)信息的獨(dú)立建模(Unimodal Adaptation)和模態(tài)之間的交互建模(Cross-modal Adaptation)是同等重要的,但當(dāng)前的微調(diào)范式往往沒有關(guān)注思考這兩個重要因素,導(dǎo)致對單模態(tài)信息的充分利用及跨模態(tài)充分交互存在較大局限性。
為此,研究團(tuán)隊(duì)充分結(jié)合多模態(tài)場景的學(xué)習(xí)特性,提出了 MokA(Multimodal low-rank Adaptation)方法,在參數(shù)高效微調(diào)背景下對單模態(tài)信息的獨(dú)立建模和模態(tài)之間的交互建模進(jìn)行了并重考量。實(shí)驗(yàn)覆蓋音頻 - 視覺 - 文本、視覺 - 文本、語音 - 文本三大代表性場景,并在 LLaMA、Qwen 等主流 LLM 基座上進(jìn)行了系統(tǒng)評估。結(jié)果顯示,MokA 在多個 benchmark 上顯著提升了任務(wù)表現(xiàn)。

- 論文鏈接:https://arxiv.org/abs/2506.05191
- 項(xiàng)目主頁:https://gewu-lab.github.io/MokA
多基座、多場景下均實(shí)現(xiàn)性能提升

當(dāng)下被忽略的模態(tài)特性
在本文中,研究團(tuán)隊(duì)指出當(dāng)前多數(shù)高效多模態(tài)微調(diào)方法存在一個關(guān)鍵性限制:它們直接借鑒自單模態(tài)的大語言模型的設(shè)計(jì)。以 LoRA 為例,如下公式所示,在多模態(tài)場景中,直接應(yīng)用 LoRA 將會使得同樣的可學(xué)習(xí)參數(shù) W 被用于同時處理和適配來自不同模態(tài)的輸入 x。其中,
代表第 i 個模態(tài)的輸入。

而在真實(shí)場景中,不同模態(tài)的信息存在異質(zhì)性。因此,這種直接 “照搬” 單模態(tài)微調(diào)方法的實(shí)踐忽視多模態(tài)場景中模態(tài)之間的本質(zhì)差異,可能導(dǎo)致模型難以充分利用所有模態(tài)的信息。基于此研究團(tuán)隊(duì)提出,要高效地微調(diào)多模態(tài)大模型,單模態(tài)信息的獨(dú)立建模(Unimodal Adaptation)和模態(tài)之間的交互建模(Cross-modal Adaptation)缺一不可:

如上公式所示意,既需要單模態(tài)獨(dú)有參數(shù)保證單模態(tài)信息適配不受其他模態(tài)干擾,同時也需要跨模態(tài)參數(shù)對模態(tài)間交互對齊進(jìn)行適配建模。
MokA:關(guān)注模態(tài)特性的多模態(tài)微調(diào)方法
基于以上思想,研究團(tuán)隊(duì)提出了 MokA 方法,兼顧單模態(tài)信息的獨(dú)立建模和模態(tài)之間的交互建模。

MokA 在結(jié)構(gòu)上繼承了 LoRA 的核心思想,以保持高效的優(yōu)點(diǎn)。但基于多模態(tài)場景對于 A、B 投影矩陣的角色進(jìn)行了重新定義。如上圖所示,MokA 包括三個關(guān)鍵模塊:模態(tài)特異的 A 矩陣,跨模態(tài)注意力機(jī)制和模態(tài)共享的 B 矩陣。
模態(tài)特異的 A 矩陣: MokA 考慮多模態(tài)場景,使用模態(tài)特異的 A 矩陣,從而可以在參數(shù)空間中保留模態(tài)獨(dú)立性,確保每種模態(tài)的信息壓縮過程不會互相干擾,是實(shí)現(xiàn)單模態(tài)信息獨(dú)立建模的關(guān)鍵一步。
跨模態(tài)注意力機(jī)制:這一模塊的主要目的是顯式增強(qiáng)跨模態(tài)之間的交互。在進(jìn)行 instruction tuning 時,通常文本信息包含了具體的問題或任務(wù)描述,而其他模態(tài)信息提供了回答問題的場景。因此,為了顯式加強(qiáng)跨模態(tài)交互,MokA 在獨(dú)立壓縮后的低秩空間內(nèi)對文本和非文本模態(tài)之間進(jìn)行了跨模態(tài)建模,加強(qiáng)任務(wù)和場景間的關(guān)聯(lián)關(guān)系。
模態(tài)共享的 B 矩陣:最后,在獨(dú)立子空間中的各個模態(tài)被統(tǒng)一投影到一個共享空間中,利用一個共享的低秩矩陣 B 進(jìn)行融合,以共享參數(shù)的方式進(jìn)一步隱式實(shí)現(xiàn)跨模態(tài)對齊。

最終,MokA 的形式化表達(dá)如上所示。在多模態(tài)場景下,MokA 有效保證了對單模態(tài)信息的獨(dú)立建模和模態(tài)之間的交互建模。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)在三個具有代表性的多模態(tài)任務(wù)場景上進(jìn)行了評估,分別包括音頻 - 視覺 - 文本、視覺 - 文本以及語音 - 文本。同時,在多個主流語言模型基座(如 LLaMA 系列與 Qwen 系列)上系統(tǒng)地驗(yàn)證了方法的適用性。結(jié)果表明,MokA 在多個標(biāo)準(zhǔn)評測數(shù)據(jù)集上均取得了顯著的性能提升,展現(xiàn)出良好的通用性與有效性。

表 1: 在音頻 - 視覺 - 文本的實(shí)驗(yàn)結(jié)果。

表 2: 在視覺 - 文本場景的實(shí)驗(yàn)結(jié)果。

表 3:在語音 - 文本場景的實(shí)驗(yàn)結(jié)果。
總述
綜上所述,MokA 作為一種面向多模態(tài)大模型的高效微調(diào)方法,兼顧了單模態(tài)特性建模與模態(tài)間交互建模的雙重需求,克服了對模態(tài)差異性的忽視問題。在保留 LoRA 參數(shù)高效優(yōu)勢的基礎(chǔ)上,MokA 通過模態(tài)特異 A 矩陣、跨模態(tài)注意力機(jī)制與共享 B 矩陣協(xié)同工作,實(shí)現(xiàn)了有效的多模態(tài)微調(diào)。實(shí)驗(yàn)驗(yàn)證表明,MokA 在多個任務(wù)和模型基座上均取得顯著性能提升,展現(xiàn)適應(yīng)性和推廣潛力,為多模態(tài)大模型的微調(diào)范式提供了新的方向。






























