精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

給RAG系統做一次全面「體檢」,亞馬遜開源RAGChecker診斷工具

人工智能 新聞
近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統提供細粒度、全面、可靠的診斷報告,并為進一步提升性能,提供可操作的方向。

亞馬遜上海人工智能研究院成立于 2018 年,已成為深度學習研究領域的領先機構之一,共發表了~90 篇論文。研究領域包括深度學習的基礎理論、自然語言處理、計算機視覺、圖機器學習、高性能計算、智能推薦系統、欺詐檢測與風險控制、知識圖譜構建以及智能決策系統等。研究院率先研究和開發了世界領先的深度圖學習庫 Deep Graph Library (DGL),結合了深度學習和圖結構表示的優勢,影響許多重要應用領域。

檢索增強生成(Retrieval-Augmented Generation, RAG)技術正在徹底革新 AI 應用領域,通過將外部知識庫和 LLM 內部知識的無縫整合,大幅提升了 AI 系統的準確性和可靠性。然而,隨著 RAG 系統在各行各業的廣泛部署,其評估和優化面臨著重大挑戰。現有的評估方法,無論是傳統的端到端指標還是針對單一模塊的評估,都難以全面反映 RAG 系統的復雜性和實際表現。特別是,它們只能提供一個最終打分報告,僅反映 RAG 系統的性能優劣。

人生病了需要去醫院做檢查,那 RAG 系統生病了,如何診斷呢?

近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統提供細粒度、全面、可靠的診斷報告,并為進一步提升性能,提供可操作的方向。本文詳細介紹了這個 RAG 的 “顯微鏡”,看看它如何幫助開發者們打造更智能、更可靠的 RAG 系統。

圖片

  • 論文:https://arxiv.org/pdf/2408.08067
  • 項目地址:https://github.com/amazon-science/RAGChecker

RAGChecker: RAG 系統的全面診斷工具

想象一下,如果我們能對 RAG 系統進行一次全面的 “體檢”,會是什么樣子?RAGChecker 就是為此而生的。它不僅能評估系統的整體表現,還能深入分析檢索和生成兩大核心模塊的性能。

圖片

RAGChecker 的主要特點包括:

  1. 細粒度評估:RAGChecker 采用基于聲明(claim)級別的蘊含關系檢查,而非簡單的回復級別評估。這種方法能夠對系統性能進行更加詳細和微妙的分析,提供深入的洞察。
  2. 全面的指標體系:該框架提供了一套涵蓋 RAG 系統各個方面性能的指標,包括忠實度(faithfulness)、上下文利用率(context utilization)、噪聲敏感度(noise sensitivity)和幻覺(hallucination)等。
  3. 經過驗證的有效性:可靠性測試表明,RAGChecker 的評估結果與人類判斷有很強的相關性,其表現超過了其他現有的評估指標。這保證了評估結果的可信度和實用性。
  4. 可操作的洞察:RAGChecker 提供的診斷指標為改進 RAG 系統提供了明確的方向指導。這些洞察能夠幫助研究人員和實踐者開發出更加有效和可靠的 AI 應用。

RAGChecker 的核心指標

RAGChecker 的指標體系可以用下圖直觀的理解:

這些指標被分為三大類:

1. 整體指標: 

  • Precision(精確率):模型回答中正確陳述的比例
  • Recall(召回率):模型回答中包含的標準答案中陳述的比例
  • F1 score(F1 分數):精確率和召回率的調和平均數,提供平衡的性能度量

2. 檢索模塊指標: 

  • Context Precision(上下文精確率):在所有檢索塊中,包含至少一個標準答案陳述的塊的比例
  • Claim Recall(陳述召回率):被檢索塊覆蓋的標準答案陳述的比例

3. 生成模塊指標: 

  • Context Utilization(上下文利用率):評估生成模塊如何有效利用從檢索塊中獲取的相關信息來產生正確的陳述。這個指標反映了系統對檢索到的信息的利用效率。
  • Noise Sensitivity(噪音敏感度):衡量生成模塊在回答中包含來自檢索塊的錯誤信息的傾向。這個指標幫助識別系統對不相關或錯誤信息的敏感程度。
  • Hallucination(幻覺):測量模型生成既不存在于檢索塊也不在標準答案中的信息的頻率。這就像是捕捉模型 “憑空捏造” 信息的情況,是評估模型可靠性的重要指標。
  • Self-knowledge(模型內部知識):評估模型在未從檢索塊獲得信息的情況下,正確回答問題的頻率。這反映了模型在需要時利用自身內置知識的能力。
  • Faithfulness(忠實度):衡量生成模塊的響應與檢索塊提供的信息的一致程度。這個指標反映了系統對給定信息的依從性。

這些指標就像是 RAG 系統的 “體檢報告”,幫助開發者全面了解系統的健康狀況,并找出需要改進的地方。

開始使用 RAGChecker

對于想要嘗試 RAGChecker 的開發者來說,上手過程非常簡單。以下是快速入門的步驟:

1. 環境設置:首先,安裝 RAGChecker 及其依賴:

pip install ragchecker
python -m spacy download en_core_web_sm

2. 準備數據:將 RAG 系統的輸出準備成特定的 JSON 格式,包括查詢、標準答案、模型回答和檢索的上下文。數據格式應如下所示:

{
     "results": [
       {
         "query_id": "< 查詢 ID>",
         "query": "< 輸入查詢 >",
         "gt_answer": "< 標準答案 >",
         "response": "<RAG 系統生成的回答 >",
         "retrieved_context": [
           {
             "doc_id": "< 文檔 ID>",
             "text": "< 檢索塊的內容 >"
           },
           ...
         ]
       },
       ...
     ]
   }

3. 運行評估:

  • 使用命令行:
ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json
  • 或者使用 Python 代碼:
from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

# 從 JSON 初始化 RAGResults
with open ("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json (fp.read ())

# 設置評估器
evaluator = RAGChecker ()

# 評估結果
evaluator.evaluate (rag_results, all_metrics)
print (rag_results)

4. 分析結果:RAGChecker 會輸出 json 格式的文件來展示評估指標,幫助你了解 RAG 系統的各個方面表現。

輸出結果的格式如下:

圖片

通過分析這些指標,開發者可以針對性地優化 RAG 系統的各個方面。例如:

  • 較低的 Claim Recall(陳述召回率)可能表明需要改進檢索策略。這意味著系統可能沒有檢索到足夠多的相關信息,需要優化檢索算法或擴展知識庫。
  • 較高的 Noise Sensitivity(噪音敏感度)表明生成模塊需要提升其推理能力,以便更好地從檢索到的上下文中區分相關信息和不相關或錯誤的細節。這可能需要改進模型的訓練方法或增強其對上下文的理解能力。
  • 高 Hallucination(幻覺)分數可能指出需要更好地將生成模塊與檢索到的上下文結合。這可能涉及改進模型對檢索信息的利用方式,或增強其對事實的忠實度。
  • Context Utilization(上下文利用率)和 Self-knowledge(模型內部知識)之間的平衡可以幫助你優化檢索信息利用和模型固有知識之間的權衡。這可能涉及調整模型對檢索信息的依賴程度,或改進其綜合利用多種信息源的能力。

通過這種方式,RAGChecker 不僅提供了詳細的性能評估,還為 RAG 系統的具體優化方向提供了清晰的指導。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 現在已經與 LlamaIndex 集成,為使用 LlamaIndex 構建的 RAG 應用提供了強大的評估工具。如果你想了解如何在 LlamaIndex 項目中使用 RAGChecker,可以參考 LlamaIndex 文檔中關于 RAGChecker 集成的部分。

結語

RAGChecker 的推出為 RAG 系統的評估和優化提供了一個新的工具。它為開發者提供了一把 “顯微鏡”,幫助他們深入了解、精準優化 RAG 系統。無論你是正在研究 RAG 技術的學者,還是致力于開發更智能 AI 應用的工程師,RAGChecker 都將是你不可或缺的得力助手。讀者可以訪問 https://github.com/amazon-science/RAGChecker 獲取更多信息或參與到項目的開發中來。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-03-22 15:38:28

代碼架構Java

2022-06-21 09:26:28

開源項目PR

2023-04-11 08:01:31

MongoDB數據工具

2017-12-12 16:17:55

微服務系統運維

2014-05-19 10:16:56

WinJS開源TypeScript

2020-03-19 15:32:47

手機消毒病毒

2021-02-25 15:54:41

微軟開源Error Analy

2024-07-31 14:07:00

RAGSQL技術

2025-07-22 01:55:00

2020-08-19 11:02:39

系統ssh登錄

2017-06-12 11:09:56

計數架構數據庫

2017-09-08 15:34:01

2011-06-28 10:41:50

DBA

2019-09-12 09:40:34

秒殺系統高并發

2023-06-07 07:31:04

PC端app脫殼技巧

2020-10-24 13:50:59

Python編程語言

2021-12-27 10:08:16

Python編程語言

2019-08-02 14:45:22

阿里Java命令

2025-04-30 08:31:40

2013-08-19 09:53:01

系統監控lsof 監控工具
點贊
收藏

51CTO技術棧公眾號

日韩一区二区中文字幕| 日本成人中文字幕在线视频| 制服丝袜中文字幕一区| 91制片厂免费观看| 六月丁香综合网| 久久青草久久| 成人影院在线| 成人黄色a**站在线观看| 欧美一区二区三区免费视| 欧美日韩中文字幕视频| 日韩三级不卡| 在线视频观看一区| 精品一区二区三区毛片| 亚洲欧美色视频| 久久av中文字幕片| 午夜精品久久久久久久99热浪潮| 国产成人福利在线| 北条麻妃一区二区三区在线| 91久久人澡人人添人人爽欧美| 裸体裸乳免费看| 你懂的视频在线免费| 久久精品国产在热久久| 6080yy精品一区二区三区| 欧美精品日韩在线| 国产精品对白| 制服视频三区第一页精品| 777久久久精品一区二区三区 | 综合 欧美 亚洲日本| 国产乱论精品| 91精品国产手机| 熟女性饥渴一区二区三区| 黄色片久久久久| 中文字幕1区2区3区| 狠色狠色综合久久| 精品国产一区二区三区久久| 99久久人妻无码精品系列| 亚洲三区欧美一区国产二区| 欧美色手机在线观看| 116极品美女午夜一级| 天堂av在线电影| 国产精品传媒在线| 青青草原成人| 男同在线观看| 99视频精品免费视频| 97视频热人人精品| 97免费观看视频| 老司机午夜精品| 国产精品久久不能| 久久精品五月天| 欧美亚洲免费| 欧美亚洲成人网| 国产三级av片| 亚洲一区二区动漫| 4438全国亚洲精品在线观看视频| 九热这里只有精品| 亚洲性感美女99在线| 欧美精品做受xxx性少妇| 国产精品久久国产精麻豆96堂| 精品国产日韩欧美| 国产午夜精品全部视频在线播放| 久操视频免费看| 亚洲+小说+欧美+激情+另类| 日韩成人xxxx| 色无极影院亚洲| 久久99国产成人小视频| 亚洲欧美另类中文字幕| 中文字幕av网址| 国产午夜一区| 日日骚av一区| tube国产麻豆| 国内精品久久久久久久影视蜜臀| 色综合蜜月久久综合网| 色狠狠色噜噜噜综合网| 久久婷婷国产91天堂综合精品| 日韩在线免费| 欧美日韩黄色一区二区| 中文字幕国产高清| 影音先锋欧美激情| 亚洲精品成人久久久| 国产精品无码午夜福利| 精品国产一区二区三区小蝌蚪| 一区二区三区视频观看| 99热99这里只有精品| 中文字幕一区二区精品区| 欧美激情精品久久久| 国产做受高潮漫动| 日日夜夜免费精品| 国产日本欧美视频| 亚洲第一页在线观看| 92国产精品观看| 视频一区国产精品| 91网址在线观看| 亚洲h精品动漫在线观看| 日韩精品视频久久| 日日狠狠久久| 精品久久久久久久久久久久久久久久久 | 成人亚洲一区| 色综合91久久精品中文字幕 | 色94色欧美sute亚洲线路一久| 超碰在线公开97| 亚洲综合影院| 亚洲视频一区二区| 青青操国产视频| 久久久亚洲一区| 亚洲综合日韩在线| 日韩av地址| 一区二区三区四区在线播放| 国产精品亚洲a| 日韩欧美中文字幕一区二区三区| 精品五月天久久| 国产十六处破外女视频| 六月婷婷一区| 在线免费观看视频一区| 国产精品av在线| 国产精品自拍电影| 久久嫩草精品久久久精品| 伊人天天久久大香线蕉av色| 涩涩视频在线播放| 51精品秘密在线观看| 99久久久久久久久久| 国产精品成人一区二区网站软件| 国产精品第一视频| 亚洲av电影一区| 亚洲精品中文在线观看| 激情五月亚洲色图| 国产一区福利| 欧美成人sm免费视频| 中国女人一级一次看片| 91小视频在线| 久久av综合网| 精品一区二区三区中文字幕| 在线观看欧美成人| 五月天婷婷导航| 成人三级伦理片| 日本一本草久p| 99久久久国产精品免费调教网站| 亚洲美女在线看| www.国产成人| 成人免费视频播放| av在线播放天堂| 精品一区二区三区四区五区 | 激情综合视频| 91午夜在线播放| 日本在线人成| 欧美无乱码久久久免费午夜一区| 精品人妻无码一区二区三区 | 老司机精品视频在线播放| 蜜臀久久99精品久久久无需会员| 中文字幕第315页| 国产欧美精品一区| 国产一区二区视频免费在线观看| 日韩中文av| 国产69精品久久久久久| 天天综合网天天综合| 亚洲成人av一区二区三区| av影片在线播放| 伊人久久婷婷| 国产精品久久一区二区三区| 性欧美高清come| 99热精品久久| 在线观看亚洲精品视频| theav精尽人亡av| 国产精品久久久久久久久久妞妞| 精品国产一区二区三区四区精华| 欧美a级在线观看| 亚洲色图第三页| 伊人成年综合网| 国产精品久久久久影视| 国产不卡的av| 一区二区自拍| 女同一区二区| 欧美日韩国产网站| 日韩亚洲一区二区| 精品人妻一区二区三区蜜桃| 亚洲一级二级在线| 素人fc2av清纯18岁| 日韩福利电影在线| 在线无限看免费粉色视频| 日韩视频1区| 777午夜精品福利在线观看| 黄网在线免费| 3d动漫精品啪啪一区二区竹菊| 国产精品白嫩白嫩大学美女| 成人av片在线观看| 美女一区二区三区视频| 91精品蜜臀一区二区三区在线| 99精品99久久久久久宅男| av资源在线播放| 国产一区二区三区丝袜| 国产精品国产三级国产普通话对白 | 天堂аⅴ在线地址8| 日韩一区二区三区视频在线| 色婷婷av国产精品| 国产精品成人一区二区三区夜夜夜 | 极品久久久久久| 99久久伊人网影院| 在线观看免费黄网站| 欧美日韩福利| 日本免费一区二区三区| 日韩免费一级| 国产精品激情自拍| 欧美人与牲禽动交com| 亚洲欧美在线一区二区| 国产黄色片免费| 色欧美片视频在线观看在线视频| 青青草原在线免费观看| 国产婷婷色一区二区三区四区| 人妻激情偷乱视频一区二区三区| 久久综合伊人| 东北少妇不带套对白| 精品一区二区三区在线| 亚洲片国产一区一级在线观看| 老牛影视免费一区二区| 伊人春色在线观看| 亚洲天堂2020| 人妻夜夜爽天天爽| 欧美日韩精品福利| 超碰中文字幕在线| 亚洲精品国产成人久久av盗摄| 欧美 日韩 成人| 丁香激情综合五月| 三日本三级少妇三级99| 视频一区中文字幕| 国产h视频在线播放| 女同性一区二区三区人了人一 | 欧美在线视频导航| 欧美24videosex性欧美| 日韩在线激情视频| 久草在现在线| 日韩精品中文字幕在线| 免费国产羞羞网站视频| 91精品视频网| 亚洲在线视频播放| 91成人国产精品| 久久精品国产成人av| 亚洲国产日产av| 69av视频在线| 亚洲激情在线激情| 国产97免费视频| 亚洲人成在线观看一区二区| 成人午夜免费影院| 国产精品天天看| 18精品爽国产三级网站| 国产日产欧美一区| www在线观看免费视频| 久久久久久久综合色一本| 国产一区精品在线| 成人免费视频国产免费麻豆| 在线电影院国产精品| 夜夜嗨av禁果av粉嫩avhd| 欧美午夜精品久久久久久超碰| 久久久久久亚洲av无码专区| 色欧美乱欧美15图片| 黄色在线视频网址| 91官网在线观看| 国产一区二区视频免费| 欧美亚洲禁片免费| 中文字幕久久久久| 欧美日韩一区在线| 亚洲自拍偷拍另类| 在线不卡中文字幕播放| 国产孕妇孕交大片孕| 日韩欧美亚洲国产另类 | 欧美精品一区二区三区蜜桃 | 日韩免费电影一区二区三区| 欧美精品羞羞答答| 一区二区三区欧美在线| 偷拍欧美精品| 粉嫩av一区二区三区天美传媒| 综合天堂av久久久久久久| 久久av高潮av| 最新国产乱人伦偷精品免费网站| 18岁网站在线观看| 日韩中文字幕亚洲一区二区va在线| 国产xxxxx视频| 捆绑调教一区二区三区| 99999精品| 成人免费观看视频| 日本黄色网址大全| 国产精品视频观看| 久久精品视频免费在线观看| 欧美电影在线观看完整版| 欧美一级淫片丝袜脚交| 成人看片网站| 亚洲一区二区在线| 精品嫩草影院| 色噜噜狠狠一区二区三区| 欧美手机在线| 日本大胆人体视频| 丝袜美腿亚洲一区二区图片| 99中文字幕在线| 99久久精品国产一区二区三区| 一级片视频免费看| 亚洲精品日产精品乱码不卡| wwwxxx亚洲| 7777女厕盗摄久久久| 日本黄视频在线观看| 中文字幕亚洲字幕| 超碰激情在线| 国产日韩精品综合网站| 里番精品3d一二三区| 午夜精品亚洲一区二区三区嫩草 | 久久99久久99精品| 免费在线观看精品| 又色又爽又黄18网站| 久久久精品欧美丰满| 久久97人妻无码一区二区三区| 色婷婷久久99综合精品jk白丝| 精品国产av一区二区| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 91精品电影| av免费在线播放网站| 国产大陆a不卡| 东方伊人免费在线观看| 亚洲成年人网站在线观看| 亚洲天堂久久久久| 亚洲毛片在线观看.| 精品欧美一区二区久久久| 国产精品最新| 加勒比海盗1在线观看免费国语版| 免费视频久久| 亚洲中文字幕无码一区| 亚洲蜜臀av乱码久久精品蜜桃| 精品一区二三区| 日韩精品免费在线| 国产丝袜视频在线播放| 成人免费在线网址| 成人久久久久| 免费在线观看的毛片| 99re热这里只有精品免费视频| 欧美日韩在线视频免费播放| 欧美人牲a欧美精品| sese一区| 国产精品www网站| 在线看成人短视频| 日本一道本久久| 不卡的av中国片| 2018天天弄| 日韩欧美成人午夜| www视频在线免费观看| 成人免费网站在线| 久久亚洲国产| 亚欧激情乱码久久久久久久久| 久久久精品日韩欧美| 欧美一区免费看| 亚洲人成网站777色婷婷| 在线视频超级| 久久综合九色99| 性伦欧美刺激片在线观看| 一本加勒比北条麻妃| 天涯成人国产亚洲精品一区av| 农村少妇久久久久久久| 97免费视频在线播放| 久久99国产精品久久99大师| 欧美一级欧美一级| 99久久综合狠狠综合久久| 看片网址国产福利av中文字幕| 日韩高清欧美高清| 亚洲精品在线影院| 亚洲精品一区二区三区四区五区| 久久国产精品露脸对白| 大地资源高清在线视频观看| 91精品婷婷国产综合久久| 性欧美videoshd高清| 狠狠色综合欧美激情| 免费看亚洲片| 国产精品av久久久久久无| 欧美日韩一区在线观看| 成人影欧美片| 国产日产精品一区二区三区四区| 亚洲欧洲另类| 亚洲av无码一区二区二三区| 欧美制服丝袜第一页| 麻豆电影在线播放| 不卡一区二区三区四区五区| 亚洲视频播放| 少妇人妻好深好紧精品无码| 欧美日韩小视频| 四虎影视成人| 免费一区二区三区| 美女视频黄久久| 久久久夜色精品| 亚洲女人天堂色在线7777| 免费一级欧美在线观看视频| 成人黄色片免费| 久久蜜臀中文字幕| 一级二级三级视频| 久久频这里精品99香蕉| 精品成人影院| 日本女人性视频| 欧美色xxxx| a级影片在线观看| 免费成人在线观看av| 极品少妇xxxx偷拍精品少妇| 日本一区二区不卡在线| 国产性色av一区二区| 香蕉免费一区二区三区在线观看| 男人日女人bb视频| 亚洲色图19p| 国产尤物视频在线|