華人團隊讓AI把表格“翻譯”成問題,檢索速度×5
表格檢索,在RAG中是一個非常小眾的問題,主要基于Retriever-Reader架構的表格問答(Table-QA)系統中,Retriever組件負責從大規模表格語料庫中檢索出與問題相關的候選表格,而Reader組件則在檢索到的表格上進行具體的問答推理。 這里有個一個非常關鍵的點是:如何將表格的語義與用戶的問題語義進行對齊。
今天分享的QGpT,是如何做好對齊?
假設有一個包含多個列和行的表格,其中每一列代表一個不同的屬性(如“姓名”、“年齡”、“職業”等)。 傳統方法可能會根據問題中的關鍵詞(如“年齡”)來檢索表格,但這種方法可能會忽略表格中其他與“年齡”相關的語義信息(如“職業”與“年齡”的關聯)。 QGpT會生成一系列模擬問題,如“表格中年齡最大的人是誰?”、“哪些職業的平均年齡最高?”等。這些問題不僅涵蓋了關鍵詞“年齡”,還涉及到了表格中的其他語義信息,從而使得表格的語義表示更加豐富,與用戶查詢的對齊更加準確。
QGpT

(一)離線階段
- 表格預處理:將每個表格轉換為Markdown格式,并提取其名稱和前10行,構建一個新的部分表格語料庫。這一過程的目的是減少計算成本,同時保留表格的核心語義信息。
- 模擬問題生成:利用大型語言模型根據部分表格生成模擬問題。生成的問題需要滿足一定條件,如涉及1到3個不同的表頭字段,以捕捉表格中數據之間的交互關系。這一過程的目的是通過生成模擬問題來豐富表格的語義表示。
- 聯合嵌入:將生成的模擬問題與部分表格聯合嵌入到同一向量空間中。通過這種方式,可以增強表格與用戶查詢之間的語義對齊,從而提高檢索性能。
(二)在線階段

- 用戶查詢嵌入:給定一個用戶查詢,計算其嵌入表示。這一過程的目的是將用戶查詢轉換為與表格表示相同的向量空間,以便進行相似度計算。
- 相似度計算:將用戶查詢的嵌入表示與所有表格表示進行余弦相似度計算。這一過程的目的是找到與用戶查詢最相似的表格。
- 檢索與排序:根據相似度計算結果,檢索出與用戶查詢最相似的前k個表格。這一過程的目的是為用戶提供最相關的表格。
(三)訓練過程
- 數據準備:準備一個包含多個表格的數據集,并對其進行預處理,提取每個表格的前10行作為部分表格。
- 模型訓練:利用大型語言模型對部分表格進行模擬問題生成,并將生成的問題與部分表格聯合嵌入到同一向量空間中。這一過程的目的是訓練一個能夠生成高質量模擬問題并進行聯合嵌入的模型。

增加QGpT的檢索方式,都增加了檢索收益,而且融入表格的標題,收益還能進一步提升。

本文轉載自??CourseAI??,作者:CourseAI
已于2025-11-13 00:29:40修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















