精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG系統中的困境:上下文不是想加就能加的

發布于 2024-12-18 10:42
瀏覽
0收藏

“這段代碼明明是對的啊,為什么ChatGPT還給出了錯誤的解釋?我都把相關文檔放進去了!” 

“用戶問的是2024年的新聞,我也給了最新的新聞報道作為上下文,但模型回答的還是2022年的舊聞...” 

相信做RAG應用開發的同學都遇到過類似的困擾。明明提供了相關的上下文,為什么大模型還是會產生幻覺...是大模型沒有好好利用上下文,還是上下文本身就不足以回答問題? 

最近Google、UCSD等機構的研究者提出了一個新的視角來看待這個問題。他們在論文《SUFFICIENT CONTEXT: A NEW LENS ON RETRIEVAL AUGMENTED GENERATION SYSTEMS》中,首次提出了“充分上下文”的概念,并基于此深入分析了RAG系統中大模型的行為表現。 

論文鏈接:https://arxiv.org/abs/2411.06037 

從相關到充分:重新定義上下文質量

在傳統的RAG系統中,我們往往用“相關性”來評價檢索到的文檔質量。比如用戶問“特斯拉Model 3的價格是多少?”,檢索系統可能會返回以下幾種文檔: 

文檔A: 

特斯拉Model 3是一款純電動轎車,由特斯拉公司生產,采用了最新的電池技術...

文檔B: 

2024年1月,特斯拉官方宣布Model 3在中國市場的官方指導價為23.59萬元起...

文檔C: 

據悉,特斯拉計劃在2024年第二季度推出Model 3的改款版本,預計將對價格進行調整...

從相關性的角度看,這三段文本都與特斯拉Model 3有關,但它們對回答價格問題的幫助程度卻大不相同。文檔A雖然介紹了Model 3,但完全沒有價格信息;文檔B給出了明確的當前價格;文檔C提到了價格會調整,但沒有具體數字。 

研究者認為,我們需要一個更嚴格的標準:上下文是否“充分”支持回答問題。換句話說:如果基于給定的上下文能推理出一個合理的答案,那這個上下文就是充分的。在上面的例子中,只有文檔B提供了充分的上下文。 

這個概念看似簡單,但實際判斷起來并不容易。比如對于多跳推理類的問題: 

問題:2024年特斯拉在中國的市值超過了哪家傳統車企?

可能需要同時具備以下信息才算充分上下文: 

  1. 特斯拉2024年在中國的市值數據
  2. 主要傳統車企2024年在中國的市值數據
  3. 這些數據的對比關系

那大模型如何使用上下文?

研究者基于“充分上下文”的概念,分析了各種大模型在實際場景中的表現。舉個例子,假設問題是:“2024年2月舉辦的第96屆奧斯卡最佳影片是哪部?” 

場景一:提供充分上下文 

第96屆奧斯卡金像獎于2024年3月10日舉行,電影《奧本海默》獲得最佳影片獎...

場景二:提供不充分但相關的上下文 

《奧本海默》《巴比》《如何優雅地炸掉一艘船》等影片入圍第96屆奧斯卡最佳影片獎提名...

在論文中,他們研究發現,面對這兩種場景,不同類型的模型表現出明顯的差異: 

  • 專有模型(如Gemini、GPT)在場景一中能準確回答“《奧本海默》”。但在場景二中,它們傾向于自信地“預測”獲獎影片,而不是承認信息不足。這反映出這類模型可能過度依賴自身的預訓練知識。
  • 開源模型(如Llama、Mistral)即使在場景一中也表現得不夠穩定,有時會產生幻覺(比如說是《巴比》獲獎),有時又會過于保守而拒絕回答。這說明這些模型在整合上下文信息方面還有提升空間。

為什么模型有時不需要充分上下文也能對?

在論文中,存在一個比較有趣的發現:即使在上下文不充分的情況下,模型也能在35%-62%的情況下給出正確答案。這是不是就比較unbelievable。 

例如,假設問題是:“愛因斯坦是在哪個國家出生的?”,給出的上下文是: 

愛因斯坦在歐洲度過了他的童年時期,后來移居美國...

這個上下文并不充分,因為沒有直接說明出生地。但模型可能還是會正確回答“德國”,猜測可能的原因是: 

  1. 這是一個眾所周知的事實,存在于模型的預訓練知識
  2. 上下文中提到“歐洲”提供了地理范圍的線索
  3. “童年時期”暗示了這可能與出生地有關

研究者通過分析發現,模型在沒有充分上下文時得到正確答案,主要有這么幾種情況: 

  • 對于是非題,比如“愛因斯坦去過中國嗎?”,即使上下文不充分,模型也有50%的機會猜對。
  • 而對于簡單的選擇題,從有限選項中選擇也會提高正確率。
  • 更有意思的是多跳推理題。有時候上下文提供了部分關鍵信息,模型能夠結合自身知識進行推理。比如問“誰是第一個登上月球的美國宇航員?”,即使上下文只提到“阿姆斯特朗是阿波羅11號任務的指揮官”,模型也可能通過預訓練知識推斷出正確答案。

從“充分上下文”到系統改進:RAG中的深度探索

在理解了大模型的行為模式后,那么,能不能進一步探索如何利用這些發現來改進RAG系統?論文的作者他們提出了一個核心問題:既然知道了上下文的充分性如此重要,那么,能否構建一個自動化的機制來判斷上下文是否充分,并據此來指導模型的回答策略?這就面臨下一個核心問題:如何讓自動判斷上下文是否充分?

這個問題看起來就毫無頭緒。就像我們人類,面對同一個問題和上下文,不同的人可能會有不同的判斷。比如問:“特斯拉2024年第一季度的營收是多少?”,給出上下文: 

特斯拉公布2024年第一季度財報:
- 營收同比下降9%
- 毛利率為17.4%
- 交付量達到38.6萬輛

有人可能認為這個上下文不充分,因為沒有給出具體的營收數字。但也有人可能認為通過同比下降9%,如果知道去年同期數據,是可以算出具體數字的。 

好在論文作者們沒有放棄,他們搞了一些實驗,得到如下的一些自動評估方法: 

  1. 使用Gemini 1.5 Pro配合精心設計的提示詞。這種方法在人工標注的測試集上達到了93%的準確率,顯示出了最好的表現。
  2. 使用FLAMe(一個24B參數的評估模型)。雖然模型相對較小,但通過將長文本分塊評估的策略,也取得了不錯的效果。
  3. 使用傳統的蘊含關系判斷模型TRUE-NLI。這種方法的特點是需要參考標準答案,實用性相對較差。

從實驗結果來看,大模型確實能夠相當準確地判斷上下文是否充分。這為我們構建更智能的RAG系統打開了一扇門。 

選擇性生成:讓模型學會“有所為有所不為”

上面我們提到了:模型既然在信息不充分的時候,可能回答錯誤。那么,順理成章的想法就是:能否讓模型在上下文不充分時,主動選擇不回答問題?

這個想法聽起來很自然,但實現起來好像并不容易。因為如前所述,即使在上下文不充分的情況下,模型有時也能給出正確答案。如果簡單地讓模型在上下文不充分時都拒絕回答,反而會損失這部分正確答案。 

為了能夠達到這個目的,論文作者們設計了一個方案計算如下的兩個結果: 

  1. 上下文是否充分的判斷結果
  2. 模型對自己答案的確信度評分

也就是說,對于每個問題,他們會: 

  • 用FLAMe模型判斷上下文是否充分
  • 讓主模型生成答案和確信度
  • 將這兩個信號輸入到一個簡單的邏輯回歸模型中
  • 根據邏輯回歸的預測分數決定是否輸出答案

這個方案的高明之處在于:它不是簡單地依據單一因素做決定,而是學習了在什么情況下模型更容易給出正確答案。比如,即使上下文不充分,如果模型的確信度特別高,可能也值得冒險輸出答案。 

論文中的實驗結果顯示,這種方法能在保持一定回答覆蓋率的同時,將正確答案的比例提高2-10%。這個提升看似不大,但考慮到基線系統已經相當強大,這樣的改進仍然很有意義。 

微調之路:事情沒那么簡單

除了在推理階段加入控制機制,作者也嘗試了另一個直觀的想法:能否通過微調讓模型天生就更懂得在上下文不充分時保持謹慎? 

他們設計了三種訓練數據混合策略: 

  1. 保持原始答案不變
  2. 隨機選擇20%的樣本,將答案改為“不知道”
  3. 選擇20%上下文不充分的樣本,將答案改為“不知道”

然而,實驗結果有出人意料了。雖然微調后的模型確實會更多地說“不知道”,但這似乎是以犧牲某些場景下的表現為代價的。比如,有些原本能正確回答的問題,現在模型反而選擇了放棄。從這里我們可以看出:模型行為的改進并不是簡單的“多說不知道”就行了,而是需要在各種場景下都保持合理的判斷。 

這項工作不僅能讓我們更好地理解RAG系統中的行為模式,也給改進RAG系統提供了一些新的思路:

  1. 在構建RAG系統時,除了關注檢索的相關性,還應該評估上下文是否充分。可以考慮:
  • 使用自動評估工具(如FLAMe)判斷上下文充分性
  • 在檢索時增加迭代策略,當上下文不充分時嘗試檢索更多信息
  • 設計更好的提示詞,引導模型在上下文不充分時主動說“不知道”
  1. 在評估RAG系統時,應該分層次看待性能:
  • 上下文充分時的表現
  • 上下文不充分時是否能合理拒答
  • 即使上下文不充分,利用預訓練知識作答的準確率
  1. 選擇合適的基座模型:
  • 如果任務要求高準確率,專有模型在有充分上下文時表現更好
  • 如果希望模型在信息不足時更謹慎,可能需要額外的機制來約束模型行為

從“能用”到“好用”的還有一段路要走

還記得文章開頭我們提到的困擾嗎?“明明提供了相關上下文,為什么模型還是會出錯”。通過這篇論文,我們似乎找到了一些答案:上下文不只是要相關,還要充分;模型不只是要會用上下文,還要懂得合理取舍。 

就像我們人類在回答問題時,有時會說“讓我查查資料”,有時會說“這個我知道”,有時會說“抱歉,我沒有足夠的信息來回答”。 

那 RAG 系統能否更加智能一點呢?想象一下,如果你的大模型不只會判斷手上的資料夠不夠用,還能主動告訴你:“這個問題要回答準確的話,我還需要知道XX和YY”,是不是會更貼心?或者更進一步,它能說:“基于目前的信息我只能給出一個大致的答案,如果你需要更準確的信息,我建議查看最新的XX”,這樣的體驗是不是會更好? 

如果要實現這些yy 的功能,需要我們在“充分上下文”的基礎上繼續探索。比如: 

  1. 在檢索階段,不只是找相關的文檔,而是要理解問題需要哪些具體信息點,有針對性地進行檢索。
  2. 在回答階段,不只是決定說還是不說,而是要能夠進行信息完整性的評估,給出恰當的限定語和建議。
  3. 在交互階段,不只是被動地接受上下文,而是要能主動詢問,逐步完善必要的信息。

本文轉載自??芝士AI吃魚??,作者: 芝士AI吃魚 ????

收藏
回復
舉報
回復
相關推薦
午夜精品在线观看| 亚洲аv电影天堂网| 欧美亚州在线观看| 在线免费观看视频网站| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 国产综合精品在线| 三级成人在线| 亚洲激情五月婷婷| 久久精品国产综合精品| 中文字幕 国产精品| 91精品秘密在线观看| 欧美精品一区二区三区蜜桃 | 一个色综合网| 亚洲国产精品嫩草影院久久| 无码精品国产一区二区三区免费| 国产精品乱码一区二区| 欧美日本亚洲韩国国产| 亚洲人成啪啪网站| 午夜视频在线观| 久久久久亚洲av片无码| 99a精品视频在线观看| 欧美性猛交xxxx免费看漫画 | 欧美日韩一区二区三区四区不卡 | 99国产精品久久一区二区三区| 中文字幕av资源一区| 成人免费在线一区二区三区| 亚洲第一成人网站| 美女久久久久久| 欧美日韩国产一区二区三区| 国产91av视频在线观看| 日本一卡二卡四卡精品| 国产一区二区伦理片| 国产成人免费av电影| 日韩精品一区二区三| 亚洲xxx拳头交| 在线国产精品视频| 国产在线观看无码免费视频| 亚洲精品在线a| 欧美日本一区二区三区四区| 国产一区亚洲二区三区| bl视频在线免费观看| 亚洲精品国产视频| 伊人天天久久大香线蕉av色| 国产视频网址在线| 欧美一级网站| 欧美激情喷水视频| 91免费公开视频| 日韩精品一区二区久久| 色爱区综合激月婷婷| 欧美二区在线| 四虎免费在线观看| 国产精品久久久久9999高清| 欧美精品在线观看91| 特黄特色免费视频| 国产高清视频一区二区| 欧美日韩的一区二区| 青青青在线视频免费观看| 成人性生活视频| 色综合天天视频在线观看| 欧美啪啪免费视频| 蜜桃av在线播放| 欧美性猛交xxxxx免费看| 乱人伦xxxx国语对白| 免费在线国产视频| 91色porny| 国产精品久久波多野结衣| 国产综合无码一区二区色蜜蜜| 日韩视频免费| 91成人在线播放| 久草手机在线观看| 快she精品国产999| 久热精品视频在线| 国产激情无码一区二区三区| 亚洲破处大片| 欧美日本精品在线| 久久精品视频日本| 在线亚洲国产精品网站| 日本久久久久久久久久久| 天天干,天天干| 麻豆精品视频在线观看免费| 成人综合国产精品| 亚洲欧美另类日韩| 久久精品视频网| 伊人久久大香线蕉av一区| 污影院在线观看| 欧美性xxxx极品高清hd直播| 久久人人爽av| 国产毛片精品| 色系列之999| japanese在线观看| 亚洲一区有码| 日韩欧美一级精品久久| 9.1成人看片| 欧美成人激情| 亚洲美女久久久| 日本xxxx免费| 欧美**字幕| 乱亲女秽乱长久久久| 国产午夜免费视频| 日韩av在线免费观看不卡| 97久草视频| 国产小视频在线| 亚洲综合在线免费观看| 国产男女无遮挡| 国产一区二区高清在线| 日韩精品在线观看一区| 欧美肥妇bbwbbw| 99香蕉国产精品偷在线观看| 91精品久久久久久久久久| 黑人精品无码一区二区三区AV| 欧美欧美全黄| 国产精品久久久久久久一区探花| 91国内产香蕉| 国产成人av一区二区| 欧美一级高清免费| 国产女人高潮的av毛片| 久久亚洲精品小早川怜子| 免费观看国产视频在线| 韩国主播福利视频一区二区三区| 亚洲欧美日韩中文播放| 国产精品国模大尺度私拍| 桃花色综合影院| av一区二区三区| 亚洲精品在线免费看| 校园春色亚洲| 精品国偷自产国产一区| 国产精品欧美性爱| 精品国产精品国产偷麻豆| 午夜欧美不卡精品aaaaa| 国产三级按摩推拿按摩| 中文字幕第一区二区| 99爱视频在线| 久久人人爽人人爽人人片av不| 日韩精品有码在线观看| 欧美成人免费看| 免费欧美在线视频| 日韩精品伦理第一区| 女人高潮被爽到呻吟在线观看| 日本韩国一区二区三区视频| 青青草精品在线| 91精品啪在线观看国产81旧版| 久久久久国色av免费观看性色| 免费视频一二三区| 精品影院一区二区久久久| 涩涩涩999| 99久久伊人| 伊人久久久久久久久久| 久久国产乱子伦精品| 久久影音资源网| 成人黄色片视频| 中国av一区| 国产aⅴ夜夜欢一区二区三区| 国产特级aaaaaa大片| 亚洲欧洲日韩一区二区三区| 久久久久久蜜桃一区二区| 欧美精品尤物在线观看 | 成人xxxx视频| 在线视频三区| 欧美美女bb生活片| 在线观看亚洲网站| 国产精品一区二区免费不卡| 国产尤物av一区二区三区| 日韩黄色三级| 91精品国产色综合久久不卡电影 | 久久色.com| 视频一区免费观看| 91国内外精品自在线播放| 少妇高潮久久77777| 91麻豆成人精品国产免费网站| 99精品欧美一区二区三区小说 | 亚洲欧美视频| 色噜噜狠狠色综合网| 不卡亚洲精品| 久久综合久久八八| 黄色片一区二区| 色婷婷久久久久swag精品| 少妇一级黄色片| 国产一区二区三区久久久| 欧美视频在线第一页| 日韩电影不卡一区| 国产精品欧美日韩| 精品51国产黑色丝袜高跟鞋| 日韩午夜激情视频| 在线观看亚洲欧美| 欧美激情资源网| 精品人妻一区二区乱码| 99在线精品免费视频九九视| 日本亚洲欧洲精品| 日本高清久久| 国产大片精品免费永久看nba| 日韩中文字幕综合| 在线看一区二区| 欧美日韩综合一区二区| 97se亚洲国产综合在线| 日韩一区二区三区不卡视频| 国产福利一区二区精品秒拍| 欧美主播福利视频| 日本视频在线| 日韩经典中文字幕| 国产精品视频久久久久久| 精品美女国产在线| www日韩在线| 久久色在线观看| 性一交一黄一片| 欧美aaaaaa午夜精品| 91午夜在线观看| 999久久久91| 欧洲在线视频一区| 久久黄色影视| 999国内精品视频在线| 九九热线视频只有这里最精品| 日韩成人激情视频| 国产又大又长又粗| 在线观看免费一区| 国产无码精品在线播放| 国产精品国产三级国产aⅴ中文 | 日韩精品欧美国产精品忘忧草| 久久国产露脸精品国产| 亚洲国产精品精华液2区45| 中文字幕三级电影| 欧美精品麻豆| 日韩高清三级| 奇米777国产一区国产二区| 国产玖玖精品视频| 午夜激情成人网| 91av在线影院| aa级大片免费在线观看| 欧美国产精品人人做人人爱| 日本高清视频在线观看| 国产香蕉一区二区三区在线视频| 嫩草影院一区二区三区| 精品美女久久久久久免费| 91人妻一区二区三区蜜臀| 国产精品网站在线播放| 亚洲av无码国产精品麻豆天美| 美女视频黄久久| 一级黄色香蕉视频| 成人激情视频| 日韩精品极品视频在线观看免费| 岛国一区二区| 国产精品海角社区在线观看| 在线天堂资源| 欧美在线国产精品| 免费毛片b在线观看| 91国在线精品国内播放| 日本一级理论片在线大全| 欧美老女人在线视频| 成人在线视频亚洲| 亚洲激情国产精品| 亚洲精品字幕在线| 精品久久久久久久久久久久久久久| 中文字幕一区在线播放| 欧美日韩激情视频| 国产污污视频在线观看| 欧美日韩免费一区| 可以免费看的av毛片| 欧美视频一二三| 国产第一页在线观看| 欧日韩精品视频| 夜夜骚av一区二区三区| 欧美久久久影院| 性做久久久久久久| 亚洲第一精品自拍| 欧美日韩国产综合视频| 亚洲夜晚福利在线观看| 在线观看黄av| 不卡伊人av在线播放| 乱插在线www| 日本欧美国产在线| 欧美天堂一区二区| 91精品国产自产在线老师啪| 国产亚洲亚洲国产一二区| 国产欧美一区二区三区另类精品 | 91精品国产成人www| 麻豆网站免费在线观看| 国产精品av免费在线观看| 外国成人毛片| 国产精品久久久久久久免费大片| 激情小说亚洲| 99久久自偷自偷国产精品不卡| 免费高清视频在线一区| 色综合久久88| 天天综合av| 国产久一一精品| 超碰精品在线| 亚洲国产欧美一区二区三区不卡| 欧美成人一区在线观看| 日韩中文字幕av在线| 欧美在线精品一区| 日韩av资源在线| 国产一区二区伦理片| 少妇精品一区二区三区| 中文字幕一区三区| 欧美a∨亚洲欧美亚洲| 91精品婷婷国产综合久久| 无码国产精品96久久久久| 亚洲欧美一区二区三区在线| 黄色网址在线免费观看| …久久精品99久久香蕉国产| 亚洲男男av| 开心色怡人综合网站| 国产精品视频3p| 丝袜足脚交91精品| 黄色成人91| 2019日韩中文字幕mv| 男女男精品视频| 熟妇高潮精品一区二区三区| 国产精品成人一区二区三区夜夜夜 | 国产综合精品视频| 日韩欧美一二三| av大片在线观看| 欧美制服第一页| 国产三级精品三级在线观看国产| 国产激情一区二区三区在线观看 | 久久精品国产精品青草色艺 | 欧美大片免费高清观看| 91免费看片在线| 日韩av片子| 色欲av无码一区二区人妻| 国产老妇另类xxxxx| 久久久久无码精品国产sm果冻| 中文字幕av一区二区三区免费看| av在线播放中文字幕| 欧美日韩中国免费专区在线看| 国产免费一级视频| 亚洲第一精品夜夜躁人人爽 | 日韩在线观看免费高清| av日韩亚洲| 久久av免费观看| 在线播放精品| 天天躁日日躁狠狠躁av麻豆男男| 成人av电影在线| 成人免费视频网站入口::| 欧美男人的天堂一二区| 国产剧情在线观看| 国产91精品最新在线播放| 日韩av中文字幕一区| 亚洲 自拍 另类小说综合图区| 日韩影院免费视频| 少妇真人直播免费视频| 欧美午夜影院在线视频| 亚州av在线播放| 91精品国产沙发| 欧美人妖在线观看| 欧美一级在线看| 91麻豆免费在线观看| 日韩视频在线观看一区| 亚洲免费av片| 日本精品在线中文字幕| 日韩精品福利视频| 久久精品国产免费| 午夜精品一区二区三级视频| 在线播放中文一区| 伊人电影在线观看| 国产精品污www一区二区三区| 第一sis亚洲原创| 北条麻妃av高潮尖叫在线观看| 国产精品99久久久久久久女警| 亚洲最大免费视频| 欧美视频第一页| 2019中文字幕在线视频| 亚洲xxxxx| 亚洲第一在线| 久久久久久国产精品无码| 欧美性xxxxxxxx| 二区三区在线观看| 国产精品三区四区| 国产精品免费看| 国产成人免费观看网站| 欧美丰满嫩嫩电影| 国产黄色大片在线观看| 久久久久高清| 免费成人美女在线观看.| 欧美风情第一页| 亚洲激情久久久| 久久福利在线| 日韩美女爱爱视频| 国产亚洲成年网址在线观看| 一本色道久久综合熟妇| 欧美美女操人视频| 亚洲最好看的视频| 九九热精品国产| 精品日韩美女的视频高清 | 精品88久久久久88久久久| dj大片免费在线观看| 精品免费日产一区一区三区免费| 中文字幕一区二区三区欧美日韩| 爱情岛论坛成人| 尤物av一区二区| 欧美日韩影视| 亚洲free嫩bbb| 久久久www| 久久久久免费看| 在线国产精品播放| 麻豆精品少妇| 国产精品探花在线播放| 色综合咪咪久久| 亚洲91av| 亚洲精品久久区二区三区蜜桃臀| 日本伊人色综合网|