破解AI多模態(tài)理解難題:浙江大學(xué)與字節(jié)跳動(dòng)聯(lián)手推出Molecule-Space新方法


引言:多模態(tài)統(tǒng)一表示空間的挑戰(zhàn)與機(jī)會(huì)
在人工智能領(lǐng)域,多模態(tài)統(tǒng)一表示空間是實(shí)現(xiàn)多模態(tài)理解和生成的基礎(chǔ)。這種統(tǒng)一空間能夠?qū)⒁纛l、圖像、文本等多種模態(tài)的數(shù)據(jù)融合在一個(gè)共享的表示空間中,從而使得機(jī)器能夠更好地理解和處理來(lái)自不同源的信息。然而,構(gòu)建這樣的統(tǒng)一表示空間面臨著巨大的挑戰(zhàn),例如需要處理的模型參數(shù)可能高達(dá)數(shù)十億,且在訓(xùn)練過(guò)程中容易發(fā)生災(zāi)難性遺忘問(wèn)題。這些問(wèn)題嚴(yán)重限制了多模態(tài)統(tǒng)一表示空間的進(jìn)一步發(fā)展。
盡管存在挑戰(zhàn),多模態(tài)統(tǒng)一表示空間也帶來(lái)了前所未有的機(jī)會(huì)。通過(guò)有效地融合來(lái)自不同專(zhuān)家空間的知識(shí),可以極大地增強(qiáng)預(yù)訓(xùn)練的統(tǒng)一空間的能力,使其在多種下游任務(wù)中表現(xiàn)更加出色。例如,通過(guò)將圖像-文本和音頻-文本的專(zhuān)家空間知識(shí)整合到統(tǒng)一的音頻-圖像-文本空間中,可以創(chuàng)建出在多個(gè)數(shù)據(jù)集上性能超越單一模態(tài)專(zhuān)家模型的統(tǒng)一表示空間。
本文提出了一種名為“Molecule-Space”的新方法,該方法將多模態(tài)表示空間視為“分子”,并通過(guò)“分子空間反應(yīng)”將額外的專(zhuān)家空間知識(shí)整合到預(yù)訓(xùn)練的統(tǒng)一空間中。這種方法不僅提高了統(tǒng)一空間的性能,而且通過(guò)定制化的推理策略,還能根據(jù)不同的應(yīng)用需求靈活調(diào)整增強(qiáng)后的統(tǒng)一空間。
論文標(biāo)題: Molecule-Space: Free Lunch in Unified Multimodal Space via Knowledge Fusion
機(jī)構(gòu): Zhejiang University, ByteDance
論文鏈接: https://arxiv.org/pdf/2405.04883.pdf
項(xiàng)目地址: https://github.com/MoleculeSpace/MoleculeSpace
Molecule-Space概念介紹
Molecule-Space是一種新穎的概念,它將多模態(tài)表示空間視為“分子”,并通過(guò)“分子空間反應(yīng)”將預(yù)訓(xùn)練的統(tǒng)一空間與額外的專(zhuān)家空間融合。這種方法主要包括兩種基本的空間反應(yīng):空間位移反應(yīng)和空間組合反應(yīng)。空間位移反應(yīng)通過(guò)將統(tǒng)一空間對(duì)齊到專(zhuān)家空間來(lái)繼承專(zhuān)家空間的所有知識(shí),但這種方法可能會(huì)犧牲統(tǒng)一空間的部分信息。而空間組合反應(yīng)則是一種溫和的知識(shí)融合方案,它將專(zhuān)家空間對(duì)齊到統(tǒng)一空間,從而保留了統(tǒng)一空間的知識(shí)并能夠并行結(jié)合多個(gè)專(zhuān)家空間。
在這兩種基本反應(yīng)的基礎(chǔ)上,進(jìn)一步提出了復(fù)雜的順序與并行反應(yīng),有效地同時(shí)整合多個(gè)空間。例如,在實(shí)驗(yàn)中,通過(guò)空間位移反應(yīng)首先將統(tǒng)一空間與先進(jìn)的圖像-文本專(zhuān)家空間整合,并調(diào)整產(chǎn)品以修復(fù)其丟失的知識(shí)。然后,通過(guò)空間組合反應(yīng)并行整合額外的專(zhuān)家空間,進(jìn)一步增強(qiáng)統(tǒng)一空間。通過(guò)這些反應(yīng)后,設(shè)計(jì)了粗到細(xì)的定制化推理策略,以靈活地適應(yīng)不同的應(yīng)用需求,選擇模塊和調(diào)整組合因子。

知識(shí)融合的策略
在Molecule-Space中,知識(shí)融合策略是通過(guò)設(shè)計(jì)簡(jiǎn)單而有效的投影器學(xué)習(xí)管道和提出混合投影器策略來(lái)加強(qiáng)空間對(duì)齊的魯棒性和表征的辨別性。首先,通過(guò)采樣整個(gè)數(shù)據(jù)集的子集,分別訓(xùn)練多個(gè)投影器,并將它們集成以實(shí)現(xiàn)更魯棒的對(duì)齊和更具辨別性的表征。
在基本反應(yīng)的實(shí)現(xiàn)中,單一投影器訓(xùn)練不涉及復(fù)雜的內(nèi)部空間對(duì)齊損失,這簡(jiǎn)化了學(xué)習(xí)流程并可能提高泛化性能。例如,位移反應(yīng)的訓(xùn)練損失僅計(jì)算不同空間特征之間的InfoNCE損失,而組合反應(yīng)則在平行對(duì)齊多個(gè)專(zhuān)家空間時(shí)使用。
此外,定制化推理策略允許在不同應(yīng)用中靈活選擇對(duì)齊的專(zhuān)家空間和調(diào)整組合因子,從而在保持高級(jí)圖像-文本能力的同時(shí)增強(qiáng)音頻-文本和音頻-圖像性能。這種策略的實(shí)施,使得Molecule-Space不僅在實(shí)驗(yàn)中通過(guò)整合ImageBind的音頻-圖像-文本空間與多個(gè)先進(jìn)空間在多個(gè)下游任務(wù)中表現(xiàn)優(yōu)越,還通過(guò)定制化推理在特定領(lǐng)域超越了現(xiàn)有的圖像-文本和音頻-文本專(zhuān)家模型。
實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證
1. 基礎(chǔ)反應(yīng)的設(shè)計(jì)
在Molecule-Space的實(shí)驗(yàn)設(shè)計(jì)中,我們首先定義了兩種基礎(chǔ)的“分子空間反應(yīng)”:空間位移反應(yīng)和空間組合反應(yīng)。空間位移反應(yīng)通過(guò)將統(tǒng)一空間對(duì)齊到專(zhuān)家空間來(lái)繼承專(zhuān)家空間的全部知識(shí),而空間組合反應(yīng)則是將專(zhuān)家空間對(duì)齊到已凍結(jié)的統(tǒng)一空間,從而保留統(tǒng)一空間的知識(shí)并部分整合專(zhuān)家空間的知識(shí)。
2. 復(fù)雜的順序與并行反應(yīng)
基于這兩種基礎(chǔ)反應(yīng),我們進(jìn)一步設(shè)計(jì)了復(fù)雜的順序與并行反應(yīng),以有效地同時(shí)整合多個(gè)空間。例如,首先通過(guò)位移反應(yīng)將高級(jí)圖像-文本專(zhuān)家空間整合到統(tǒng)一空間中,并調(diào)整其他模態(tài)的數(shù)據(jù)以修復(fù)丟失的知識(shí)。然后,通過(guò)并行的組合反應(yīng)將其他模態(tài)的專(zhuān)家空間整合進(jìn)來(lái),進(jìn)一步增強(qiáng)統(tǒng)一空間。

3. 實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證Molecule-Space的有效性,我們?cè)贗mageBind的音頻-圖像-文本統(tǒng)一空間上進(jìn)行了實(shí)驗(yàn)。通過(guò)整合一個(gè)圖像-文本和兩個(gè)音頻-文本的專(zhuān)家空間,我們構(gòu)建了一個(gè)在九個(gè)數(shù)據(jù)集上的五個(gè)下游任務(wù)中表現(xiàn)優(yōu)越的音頻-圖像-文本空間。此外,通過(guò)定制化推理,我們甚至在圖像-文本或音頻-文本任務(wù)中超越了使用的專(zhuān)家空間。




定制化推理策略
1. 粗粒度組合模塊選擇
在推理過(guò)程中,我們可以靈活選擇任何已對(duì)齊的專(zhuān)家空間來(lái)獲得特定方面的增益。例如,可以選擇特定的音頻-文本專(zhuān)家空間來(lái)構(gòu)建針對(duì)特定需求的統(tǒng)一空間。
2. 細(xì)粒度組合因子調(diào)整
除了選擇不同的模塊,我們還可以通過(guò)改變不同專(zhuān)家空間的組合權(quán)重來(lái)以細(xì)粒度方式定制增強(qiáng)的統(tǒng)一空間。例如,較小的組合權(quán)重意味著部分吸收音頻-文本知識(shí),適度的知識(shí)融合可以同時(shí)增強(qiáng)音頻-文本和音頻-圖像的性能,同時(shí)保持先進(jìn)的圖像-文本能力。
通過(guò)這種粗到細(xì)的定制化推理策略,Molecule-Space不僅在實(shí)驗(yàn)中顯示出強(qiáng)大的性能,還能根據(jù)不同的應(yīng)用需求靈活調(diào)整,展現(xiàn)出其在多模態(tài)表示空間中的廣泛應(yīng)用潛力。
討論與未來(lái)方向
1. 知識(shí)融合的選擇:位移反應(yīng)與組合反應(yīng)
在Molecule-Space中,位移反應(yīng)和組合反應(yīng)作為基本的空間反應(yīng),各有其獨(dú)特的優(yōu)勢(shì)和局限。位移反應(yīng)雖然能夠完全繼承專(zhuān)家空間的知識(shí),但可能會(huì)犧牲一部分統(tǒng)一空間的信息。相比之下,組合反應(yīng)能夠保留統(tǒng)一空間的知識(shí),但只能部分融合專(zhuān)家空間的知識(shí)。這兩種反應(yīng)的選擇和應(yīng)用,依賴(lài)于具體的應(yīng)用需求和預(yù)期的效果。
2. 復(fù)雜反應(yīng)路徑的探索
本研究提出的復(fù)雜順序與并行反應(yīng),通過(guò)結(jié)合位移反應(yīng)和組合反應(yīng)的優(yōu)點(diǎn),展示了在多空間融合中的有效性。未來(lái)的研究可以進(jìn)一步探索不同的復(fù)雜反應(yīng)路徑,以?xún)?yōu)化多模態(tài)空間的融合效果,特別是在處理更多模態(tài)輸入時(shí)的表現(xiàn)。
3. 細(xì)粒度組合因子的調(diào)整
通過(guò)對(duì)組合因子的細(xì)粒度調(diào)整,Molecule-Space能夠在保持圖像-文本能力的同時(shí),增強(qiáng)音頻-文本和音頻-圖像的表現(xiàn)。這種靈活的調(diào)整機(jī)制為多模態(tài)表示空間的優(yōu)化提供了更多可能性。未來(lái)的工作可以在更多的應(yīng)用場(chǎng)景中測(cè)試和優(yōu)化這一機(jī)制,以實(shí)現(xiàn)更精確的知識(shí)融合。
4. 項(xiàng)目器的設(shè)計(jì)與集成
Mixture-of-Projectors策略通過(guò)集成多個(gè)訓(xùn)練有素的項(xiàng)目器,增強(qiáng)了空間對(duì)齊的魯棒性和表示的區(qū)分性。探索不同的項(xiàng)目器結(jié)構(gòu)和訓(xùn)練目標(biāo),可能會(huì)進(jìn)一步提升模型的性能和適應(yīng)性。未來(lái)的研究可以在這一方向上進(jìn)行深入,特別是在不同模態(tài)和復(fù)雜數(shù)據(jù)集上的應(yīng)用。
總結(jié)
Molecule-Space通過(guò)將多模態(tài)空間視為“分子”,并通過(guò)“分子空間反應(yīng)”來(lái)融合知識(shí),提出了一種有效的統(tǒng)一多模態(tài)表示空間增強(qiáng)方法。通過(guò)位移反應(yīng)和組合反應(yīng),以及基于這些基礎(chǔ)的復(fù)雜順序與并行反應(yīng),Molecule-Space不僅在實(shí)驗(yàn)上超越了ImageBind等基線模型,還通過(guò)定制化推理策略,展示了在特定領(lǐng)域甚至超越專(zhuān)家模型的潛力。此外,細(xì)粒度的組合因子調(diào)整和項(xiàng)目器的設(shè)計(jì)為多模態(tài)空間的進(jìn)一步研究提供了新的視角和工具。未來(lái),Molecule-Space的概念和方法可以擴(kuò)展到更多模態(tài)和應(yīng)用場(chǎng)景,為多模態(tài)人工智能的發(fā)展提供強(qiáng)有力的支持。

















