關(guān)于多模態(tài)應(yīng)用的幾個疑問,以及多模態(tài)應(yīng)該怎么應(yīng)用于RAG? 原創(chuàng)
“ 多模態(tài)與RAG的結(jié)合是一個應(yīng)用的實踐過程,其實際操作遠比理論要復(fù)雜得多。”
這段時間一直在搞RAG和Agent,然后使用的基本上都是基于文本處理的推理模型,基本上沒用過多模態(tài)模型;而最近突然有個想法,那就是把多模態(tài)應(yīng)用于當前的RAG系統(tǒng)。
雖然說之前對多模態(tài)有些基礎(chǔ)認識,但并沒有在真實的業(yè)務(wù)系統(tǒng)中實踐過;然后網(wǎng)絡(luò)上關(guān)于多模態(tài)應(yīng)用的內(nèi)容又很少,因此等真正嘗試去做的時候才發(fā)現(xiàn),多模態(tài)應(yīng)用好像沒有那么簡單。
多模態(tài)模型的應(yīng)用
既然要應(yīng)用多模態(tài),那么首先要了解什么是多模態(tài);在對多模態(tài)最粗淺的認知就是,多模態(tài)支持多種模態(tài)的數(shù)據(jù),也就是文本,視頻,音頻,圖片等。
在作者個人的認知中,多模態(tài)應(yīng)該是能接受任何形式的數(shù)據(jù)輸入,然后可以輸出任何自己想要的數(shù)據(jù)格式;事實上多模態(tài)也是這么做的,但并不是我們想象中的那樣。
觀察了幾家模型廠商之后發(fā)現(xiàn)一個問題,很多所謂的多模態(tài)模型都僅僅支持兩種模態(tài)或三種模態(tài);比如說根據(jù)文本生成語音,圖片理解,視頻理解,圖片生成,視頻生成等等。

而那種能夠支持所有模態(tài)數(shù)據(jù)的模型叫做——全模態(tài)。
以具體的例子來看,在日常辦公場景中,會議紀要是一個很重要的東西;現(xiàn)在基于人工智能的會議紀要產(chǎn)品已經(jīng)有很多了;其原理就是,把音頻數(shù)據(jù)(會議的錄音)通過音頻轉(zhuǎn)文字的模型,把音頻轉(zhuǎn)成文字,然后再基于文字做總結(jié)提煉,最后形成會議紀要。
同樣的,圖片理解,視頻理解,圖片生成,視頻生成等所謂的多模態(tài)模型都是如此。
OK,那么怎么把多模態(tài)模型應(yīng)用于RAG系統(tǒng)呢?
在非多模態(tài)模式下的RAG系統(tǒng),是把所有的數(shù)據(jù)都轉(zhuǎn)成文字的形式,然后進行相似度檢索;包括圖片,表格等。
但是,我們都知道圖片,架構(gòu)圖等表達的內(nèi)容有時很難用文字描述出來;因此,經(jīng)過轉(zhuǎn)換之后的文檔會丟失大量的有效信息。

那么,如果能把多模態(tài)應(yīng)用到RAG中,那么就可以讓多模態(tài)模型來識別文檔中的內(nèi)容,這樣就可以盡量保證信息的完整性;但具體應(yīng)該怎么做呢?
在剛開始作者的認知中,多模態(tài)應(yīng)用于RAG應(yīng)該是把文檔丟給模型,然后讓模型把里面的文字,圖片,架構(gòu)圖,表格等給摳出來,并維護其內(nèi)在的關(guān)聯(lián)關(guān)系,比如說那些文字和那些圖片是關(guān)聯(lián)的;然后把這些不同模態(tài)的數(shù)據(jù),再通過向量化的方式保存到向量庫中。
但是,看了模型廠商的一些模型之后,發(fā)現(xiàn)好像不是這么做的;它們的方式是,把文檔丟給模型,然后讓模型按照要求總結(jié)出我們所需要的東西;當然,也有那種能夠確定文檔中文字和圖片的位置,然后通過截圖的方式拿到文檔中的圖片或架構(gòu)圖等數(shù)據(jù)。

但是,這種處理方式并沒有維護文檔中的關(guān)聯(lián)關(guān)系,不同數(shù)據(jù)之間依然是獨立的內(nèi)容;而且,這樣的話,在做數(shù)據(jù)召回時應(yīng)該怎么召回?
總不能不同的數(shù)據(jù)還有去不同的地方做召回,最重要的是不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系怎么處理?
果然是紙上得來終覺淺,絕知此事要躬行;多模態(tài)好像看起來很簡單,但等真正想上手去做的時候才發(fā)現(xiàn)遠遠沒有那么簡單。
當然,也可能是作者沒有多模態(tài)應(yīng)用的經(jīng)驗,暫時還無法理解多模態(tài)在RAG中的使用流程。
本文轉(zhuǎn)載自??AI探索時代?? 作者:DFires

















