構建多模態 Agentic RAG 架構設計與代碼實現 原創
科技巨頭們每天都在生產環境中使用多模態 RAG(Retrieval-Augmented Generation,檢索增強生成)系統。
比如:
- Spotify 用它來回答音樂相關的問題;
- YouTube 用它把文字提示詞變成音樂;
- Amazon Music 用它根據提示詞創建歌單。
今天,我們來學習如何構建一個能通過語音查詢文檔和音頻文件的多模態 Agentic RAG 系統。

下文我們詳細剖析之。
一、多模態 Agentic RAG 架構設計和代碼實現
1、多模態 Agentic RAG 技術棧
- AssemblyAI:用于語音轉文字。
- Milvus:作為向量數據庫。
- Beam:用于部署(開源)。
- CrewAI Flows:用于流程編排。
2、多模態 Agentic RAG 架構設計和工作流程

- 用戶輸入數據(音頻+文檔)。
- AssemblyAI 對音頻文件進行轉錄。
- 將轉錄后的文本和文檔嵌入到 Milvus 向量數據庫中。
- Research 智能體根據用戶的查詢檢索信息。
- Response 智能體利用這些信息來構建回答。
3、多模態 Agentic RAG 代碼落地
第一步、數據輸入
用戶提供文本和音頻數據,放在數據目錄中。
CrewAI Flow 負責發現文件并準備好后續處理。

第二步、語音轉文字
使用 AssemblyAI 的語音轉文字平臺將用戶的音頻輸入轉錄成文字。
AssemblyAI 不是開源的,但它提供很多免費的轉錄額度,足以滿足這個演示的需求。
你可以在這里獲取 AssemblyAI 的 API 密鑰,免費轉錄 100+ 小時的音頻 → ??https://www.assemblyai.com/??。

第三步、嵌入數據
將上一步轉錄的文本數據和輸入的文本數據嵌入到 Milvus 向量數據庫中。

第四步、用戶查詢
用戶輸入語音查詢,由 AssemblyAI 都轉錄成文字。

第五步、檢索上下文
為查詢生成嵌入向量,并從 Milvus 向量數據庫中拉取最相關的片段。

第六步、生成回答
根據檢索到的相關上下文,調用 Crew 生成清晰且有引用的回答。

第七步、最終呈現
將所有內容整合到一個簡潔的 Streamlit 界面中,并使用 Beam(開源)將應用部署到無服務器容器中。
我們導入必要的 Python 依賴項,并指定容器的計算規格。

第八步、部署完成
部署完成后,我們將獲得一個 100% 私有的多模態 Agentic RAG 流程部署。

4、總結
以上就是構建自己的多模態 Agentic RAG 的方法。
以下是一些相關鏈接:
- Beam GitHub 倉庫
- → ??https://github.com/beam-cloud/beta9/??
- 獲取 AssemblyAI API 密鑰
- → ???https://www.assemblyai.com/???
- 今天的項目代碼在這里
- →??https://github.com/patchy631/ai-engineering-hub/tree/main/multimodal-rag-assemblyai??
好了,這就是我今天想分享的內容。
?本文轉載自????玄姐聊AGI???? 作者:玄姐
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















