傳統RAG涼涼?多模態RAG帶來工業級革命
論文筆記分享,標題Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications
多模態VL模型很早的就進入了這個圈子,早的有LLava,近一點的gpt4o。這個內容的主要想論證一個事情,在工業界,同時包含文本和圖像的RAG系統,相比于單文本的 RAG 系統會提高整體性能?
當然這個問題的結論是,會提高,所以還額外做了一些,優化多模態流程探索的工作。
首先,多模態的結合,2種模式,一種是圖片保持不變,建立起圖片向量庫;另一種是圖片會提取出摘要描述用于召回。 分別對應了下圖

比較特別的是,這個論文用到的數據是私有的,測試數據是自己標的。 語料庫有8540 個片段,8377 張圖片。 測試數據由專業人士標注100個問答對。
考慮到,這里多模態,現有的評測框架不夠用了,所以他們開發并開源了一個評測框架,具體的維度還是老幾樣,正確性,相關性,事實性等等。地址在:https://github.com/riedlerm/multimodal_rag_for_industry
評測結論如下圖,就看下圖左一,關注框框的對比把
- 僅僅使用圖片的RAG,不管是不是摘要,效果基本都不如baseline no rag
- 使用text only的RAG系統已經是個非常強的baseline了
多模態的RAG有潛力,但是很難打敗基于純文本的,但是如果圖片檢索厲害的話,還是能起飛的(黃框)

最后,在多模態RAG中,基于圖片摘要向量的比圖像直接做向量的,大部分指標都表現的好,受限于多模態向量的潛能,文本向量模型目前表現更好,也限制了這方面的發揮。總的來說,未來可期。

本文轉載自 ??NLP前沿??,作者: 熱愛AI的
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















