首個多模態(tài)連續(xù)學習綜述,港中文、清華、UIC聯(lián)合發(fā)布
本文作者來自于港中文、清華和UIC。主要作者包括:余甸之,港中文博士生;張欣妮,港中文博士生;陳焱凱,港中文博士;劉璦瑋,清華大學博士生;張逸飛,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。

- 論文標題:Recent Advances of Multimodal Continual Learning: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/abs/2410.05352
- GitHub地址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning
多模態(tài)連續(xù)學習的最新進展
連續(xù)學習(CL)旨在增強機器學習模型的能力,使其能夠不斷從新數據中學習,而無需進行所有舊數據的重新訓練。連續(xù)學習的主要挑戰(zhàn)是災難性遺忘:當任務按順序訓練時,新的任務訓練會嚴重干擾之前學習的任務的性能,因為不受約束的微調會使參數遠離舊任務的最優(yōu)狀態(tài)。盡管連續(xù)學習取得了重大進展,但大多數工作都集中在單一數據模態(tài)上,如視覺,語言,圖,或音頻等。這種單模態(tài)的關注忽略了現(xiàn)實世界環(huán)境的多模態(tài)本質,因為現(xiàn)實世界環(huán)境本身就很復雜,由不同的數據模態(tài)而不是單一模態(tài)組成。
隨著多模態(tài)數據的快速增長,發(fā)展能夠從多模態(tài)來源中連續(xù)學習的 AI 系統(tǒng)勢在必行,因此出現(xiàn)了多模態(tài)連續(xù)學習(MMCL)。這些 MMCL 系統(tǒng)需要有效地集成和處理各種多模態(tài)數據流,同時還要在連續(xù)學習中設法保留以前獲得的知識。

盡管傳統(tǒng)的單模態(tài) CL 與多模態(tài) CL 之間存在聯(lián)系,但多模態(tài) CL 所面臨的挑戰(zhàn)并不僅僅是簡單地將 CL 方法用于多模態(tài)數據。這種直接的嘗試已被證明會產生次優(yōu)性能。具體而言,如圖所示,除了現(xiàn)有的 CL 災難性遺忘這一挑戰(zhàn)外,MMCL 的多模態(tài)性質還帶來了以下四個挑戰(zhàn)。

- 挑戰(zhàn) 1 模態(tài)失衡:模態(tài)失衡是指多模態(tài)系統(tǒng)中不同模態(tài)的處理或表示不均衡,表現(xiàn)在數據和參數兩個層面。在數據層面,不同模態(tài)的數據可用性可能會在 CL 過程中發(fā)生顯著變化,出現(xiàn)極度不平衡的情況,如缺乏某些模態(tài)。在參數層面,不同模態(tài)組件的學習可能會以不同的速度收斂,從而導致所有模態(tài)的學習過程整體失衡。
- 挑戰(zhàn) 2 復雜模態(tài)交互:模態(tài)交互發(fā)生在模型組件中,在這些組件中,多模態(tài)輸入信息的表征明確地相互作用。這種交互給 MMCL 帶來了獨特的挑戰(zhàn),主要體現(xiàn)在兩個交互過程中:模態(tài)對齊和模態(tài)融合。在模態(tài)對齊過程中,單個數據樣本的不同模態(tài)特征往往會在連續(xù)學習過程中出現(xiàn)分散,這種現(xiàn)象被稱為 MMCL 中的空間紊亂。這種發(fā)散可能會導致更嚴重的性能下降。在模態(tài)融合方面,在非 CL 環(huán)境中使用的經典多模態(tài)融合方法在 MMCL 環(huán)境中可能會表現(xiàn)較差,因為不同的融合技術對解決遺忘問題有不同的效果。
- 挑戰(zhàn) 3 高計算成本:在 MMCL 中加入多種模態(tài)會大大增加計算成本,無論是在模型層面還是在任務層面都是如此。在模型層面,增加模態(tài)不可避免地會增加可訓練參數的數量。許多 MMCL 方法利用預訓練的多模態(tài)模型作為基礎。然而,不斷對這些大規(guī)模模型進行整體微調會帶來沉重的計算開銷。同樣,在特定任務層面,MMCL 方法可能會導致特定任務可訓練參數的持續(xù)積累,這些參數可能會超過預訓練模型中的參數數量,從而抵消了采用連續(xù)學習訓練模式的效率優(yōu)勢。
- 挑戰(zhàn) 4 預訓練零樣本能力的退化:隨著預訓練模型的進步,MMCL 方法可以用這些強大的模型。這些預先訓練好的多模態(tài)模型經常會表現(xiàn)出零樣本能力。然而,在訓練過程中,該能力可能會減弱。這種退化風險可能導致未來任務上的嚴重性能下降,這被稱為 MMCL 中的負前向知識轉移。
MMCL 算法匯總

為了應對上述挑戰(zhàn),研究人員越來越關注 MMCL 方法。作者將 MMCL 方法分為四類主要方法,即基于正則化、基于架構、基于重放和基于提示的方法。
- 基于正則化的方法:由于訓練中參數的自由移動導致災難性遺忘,基于正則化的方法旨在對參數施加約束來減少遺忘。
- 基于架構的方法:該類方法使用不同的模型參數處理不同的任務?;谡齽t化的方法共享所有參數來學習任務,這使得它們容易受到任務間干擾:即記住舊任務會嚴重干擾新任務的學習,導致性能下降,尤其是在前向知識轉移為負時。相比之下,基于架構的方法通過引入特定于任務的組件來減少任務間干擾。
- 基于重放的方法:該類方法利用一個情節(jié)記憶緩沖區(qū)來重放來自先前任務的歷史實例,例如數據樣本,從而幫助在學習新任務時保持早期知識。這種重放實例的方法避免了基于正則化的方法的嚴格約束,并規(guī)避了在架構基于的方法中動態(tài)修改網絡架構的復雜性。
- 基于提示的方法:隨著大型模型的快速發(fā)展及其在連續(xù)學習環(huán)境中的應用,基于提示的方法最近應運而生,以更好地利用預訓練過程中獲得的豐富知識。這些方法的優(yōu)勢在于只需最小的模型調整,減少了廣泛微調的需求,而與之前通常需要顯著微調或架構修改的方法不同?;谔崾镜姆椒ǖ姆妒酵ㄟ^在連續(xù)空間中應用少量提示參數來修改輸入,使得模型在學習額外的特定任務信息時能夠保留其原有知識。
這些方法主要集中用于視覺和語言模態(tài),同時也有其他方法關注圖、音頻等其他模態(tài)。下圖中展示了 MMCL 方法的代表性架構。

以下兩張表總結了 MMCL 方法的詳細屬性。


數據集和基準
大多數 MMCL 數據集是從最初為非連續(xù)學習任務設計的知名數據集中改編而來的,研究人員通常會利用多個數據集或將單個數據集劃分為多個子集,以模擬 MMCL 環(huán)境中的任務。此外,也存在一些專門用于 MMCL 的數據集,例如 P9D 和 UESTC-MMEA-CL。下表總結了涵蓋各種連續(xù)學習場景、模態(tài)和任務類型的 MMCL 基準。

未來方向
多模態(tài)連續(xù)學習已成為一個活躍且前景廣闊的研究主題。以下是幾個未來進一步探索和研究的方向。
- 提高模態(tài)的數量與質量:表 3 中顯示,只有少數 MMCL 方法關注視覺和語言以外的模態(tài)。因此,在整合更多模態(tài)方面還有巨大的研究空間。此外,模態(tài)并不限于表 3 中列出的內容,還可能包括生物傳感器、基因組學等,從而增強對新興挑戰(zhàn)的支持,尤其是在科學研究中的人工智能應用(AI for science)。
- 更好的模態(tài)交互策略:許多現(xiàn)有的 MMCL 方法僅僅在網絡架構中融合模態(tài),而沒有深入理解或分析它們在訓練中的相互影響。因此,測量這種跨模態(tài)影響將是一個有趣且有前景的研究方向,以實現(xiàn)更細粒度的多模態(tài)交互。
- 參數高效微調的 MMCL 方法:參數高效微調(PEFT)方法提供了一種有效的解決方案,以優(yōu)化訓練成本。雖然基于提示的方法是參數高效的,但在表 2 中可以看到,其他類別中僅有 MoE-Adapters4CL 利用了 PEFT 方法。因此,考慮到近年來涌現(xiàn)出眾多 PEFT 方法,將它們應用于減少 MMCL 方法的訓練成本是一個值得探索的方向。此外,除了簡單地應用現(xiàn)有 PEFT 方法,一個有前景的方向是為 MMCL 設置提出新的 PEFT 方法,并將其與其他 MMCL 技術良好集成。
- 更好的預訓練知識維護:由于許多 MMCL 方法使用了強大的多模態(tài)預訓練模型,因此在訓練過程中自然希望能夠記住其預訓練知識。遺忘預訓練知識可能會顯著影響未來任務性能。
- 基于提示的 MMCL 方法:基于提示的 MMCL 方法能有效應對挑戰(zhàn) 3:高計算成本,以及挑戰(zhàn) 4:預訓練零樣本能力退化。然而,如表 2 所示,基于提示的 MMCL 方法目前是最少的一類。鑒于基于提示的方法仍處于起步階段,因此進一步研究和發(fā)展的潛力巨大。
- 可信賴的多模態(tài)連續(xù)學習:隨著人們越來越關注隱私以及政府實施更多相關法規(guī),對可信賴模型的需求正在上升。諸如聯(lián)邦學習(FL)等技術可以被用于使服務器模型在不共享原始數據的情況下學習所有客戶端的數據知識。隨著眾多聯(lián)邦連續(xù)學習(FCL)方法的發(fā)展,將 FCL 方法擴展到 MMCL 將是一個有前景的發(fā)展方向,從而增強 MMCL 模型的可信賴性。
總結
本文呈現(xiàn)了一份最新的多模態(tài)連續(xù)學習(MMCL)綜述,提供了 MMCL 方法的結構化分類、基本背景知識、數據集和基準的總結。作者將現(xiàn)有的 MMCL 工作分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,還為所有類別提供了代表性的架構示意圖。此外,本文討論了在這一快速發(fā)展的領域中有前景的未來研究方向。希望 MMCL 的發(fā)展進一步增強模型使其展現(xiàn)出更多人類的能力。這種增強包括在輸入層面處理多模態(tài)的能力以及在任務層面獲取多樣化技能,從而使人們更接近于在這個多模態(tài)和動態(tài)世界中實現(xiàn)通用智能的目標。



































