精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估 原創(chuàng)

發(fā)布于 2025-10-22 09:54
瀏覽
0收藏

大家好,我是玄姐。

一、引言

Agentic AI 的評(píng)估,核心是測(cè)試你的大語(yǔ)言模型(LLM)應(yīng)用,確保其性能穩(wěn)定。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這個(gè)話題或許不算最吸引人,但越來(lái)越多企業(yè)開始關(guān)注它。所以,搞清楚該跟蹤哪些指標(biāo)來(lái)實(shí)際衡量性能,很有必要。

另外,每次推送代碼更新時(shí),做好評(píng)估也能防止系統(tǒng)出問(wèn)題。

因此,本文研究了多輪對(duì)話機(jī)器人、檢索增強(qiáng)生成(RAG)和智能體(Agentic)應(yīng)用的常見評(píng)估指標(biāo),還簡(jiǎn)要介紹了 DeepEval、RAGAS 和 OpenAI 的 Evals 庫(kù)等框架,幫你明確不同場(chǎng)景下該選哪個(gè)工具。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

二、傳統(tǒng)評(píng)估方式(基礎(chǔ)入門)

如果你熟悉自然語(yǔ)言處理(NLP)任務(wù)的評(píng)估方法,也了解公開基準(zhǔn)測(cè)試的原理,可直接跳過(guò)這部分。

要是不熟悉,建議先了解準(zhǔn)確率(Accuracy)、BLEU 等早期指標(biāo)的用途和原理,以及 MMLU 這類公開基準(zhǔn)測(cè)試的流程。

2.1 自然語(yǔ)言處理任務(wù)的評(píng)估

評(píng)估文本分類、翻譯、摘要等傳統(tǒng) NLP 任務(wù)時(shí),我們會(huì)用到準(zhǔn)確率、精確率(Precision)、F1 分?jǐn)?shù)、BLEU 和 ROUGE 等傳統(tǒng)指標(biāo)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這些指標(biāo)至今仍在使用,但主要適用于模型輸出單一、易對(duì)比的 “正確答案” 的場(chǎng)景。

  • 以文本分類為例,任務(wù)是給每個(gè)文本分配一個(gè)標(biāo)簽。此時(shí)可通過(guò)準(zhǔn)確率評(píng)估 —— 將模型分配的標(biāo)簽與評(píng)估數(shù)據(jù)集中的參考標(biāo)簽對(duì)比,判斷是否正確。

     a.評(píng)判標(biāo)準(zhǔn)很明確:標(biāo)簽錯(cuò)誤得 0 分,正確得 1 分。

     b.比如,用 1000 封郵件的垃圾郵件數(shù)據(jù)集訓(xùn)練分類器,若模型正確標(biāo)記了 910 封,準(zhǔn)確率就是 0.91。

     c.文本分類中,我們還常使用 F1 分?jǐn)?shù)、精確率和召回率(Recall)。

  • 對(duì)于文本摘要、機(jī)器翻譯這類 NLP 任務(wù),人們常用 ROUGE 和 BLEU 指標(biāo),判斷模型生成的譯文或摘要與參考文本的吻合度。
  • 這兩個(gè)指標(biāo)都會(huì)統(tǒng)計(jì)重疊的 n 元語(yǔ)法(n-grams),雖對(duì)比方向不同,但核心邏輯一致:共享的詞語(yǔ)片段越多,分?jǐn)?shù)越高。
  • 不過(guò)這種評(píng)估方式比較簡(jiǎn)單 —— 若模型輸出用了不同措辭,分?jǐn)?shù)就會(huì)偏低。

總體而言,這些傳統(tǒng)指標(biāo)在 “答案唯一” 的場(chǎng)景下效果最好,但對(duì)于如今我們搭建的 LLM 應(yīng)用,大多不太適用。

2.2 大語(yǔ)言模型基準(zhǔn)測(cè)試

關(guān)注行業(yè)動(dòng)態(tài)的話,你可能會(huì)發(fā)現(xiàn):每次有新的大語(yǔ)言模型發(fā)布,都會(huì)進(jìn)行 MMLU Pro、GPQA 或 Big-Bench 等基準(zhǔn)測(cè)試。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這些屬于通用評(píng)估,正確叫法是 “基準(zhǔn)測(cè)試(Benchmark)”,而非我們后續(xù)會(huì)講的 “評(píng)估(Evals)”。

盡管每個(gè)模型還會(huì)接受毒性、幻覺(jué)、偏見等方面的評(píng)估,但最受關(guān)注的還是類似 “考試” 或 “排行榜” 的基準(zhǔn)測(cè)試。

  • MMLU 等數(shù)據(jù)集以選擇題為主,出現(xiàn)已有一段時(shí)間。我曾瀏覽過(guò)該數(shù)據(jù)集,發(fā)現(xiàn)其中存在不少混亂之處。

     a.有些問(wèn)題和答案模糊不清,這讓我猜測(cè):LLM 提供商可能會(huì)針對(duì)這些數(shù)據(jù)集訓(xùn)練模型,確保模型能答對(duì)題目。

     b.這也引發(fā)了公眾的擔(dān)憂:大多數(shù) LLM 在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,可能只是過(guò)擬合導(dǎo)致;因此,我們需要更新的數(shù)據(jù)集和獨(dú)立的評(píng)估方式。

2.3 大語(yǔ)言模型評(píng)分器(LLM-as-a-judge)

評(píng)估這些數(shù)據(jù)集時(shí),通??梢杂脺?zhǔn)確率和單元測(cè)試。但現(xiàn)在有個(gè)新變化 —— 出現(xiàn)了 “大語(yǔ)言模型評(píng)分器(LLM-as-a-judge)”。

  • 基準(zhǔn)測(cè)試模型時(shí),團(tuán)隊(duì)大多仍用傳統(tǒng)方法。只要是選擇題或答案唯一的場(chǎng)景,無(wú)需其他操作,只需將模型答案與參考答案對(duì)比,判斷是否完全匹配即可。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

     a.MMLU、GPQA 等含選擇題答案的數(shù)據(jù)集,就屬于這種情況。

     b.對(duì)于代碼測(cè)試(如 HumanEval、SWE-Bench),評(píng)分器只需運(yùn)行模型生成的補(bǔ)丁或函數(shù):所有測(cè)試通過(guò),即視為問(wèn)題解決;反之則未解決。

但可想而知,若問(wèn)題模糊或?qū)儆陂_放式問(wèn)題,答案就可能不穩(wěn)定。這種漏洞催生了 “LLM-as-a-judge”—— 用 GPT-4 這類大語(yǔ)言模型對(duì)答案打分。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • MT-Bench 是采用 LLM 作為評(píng)分器的基準(zhǔn)測(cè)試之一:它將兩個(gè)競(jìng)爭(zhēng)的多輪對(duì)話答案輸入 GPT-4,讓其判斷哪個(gè)更好。
  • 原本依賴人工評(píng)分的 “聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)”,如今似乎也通過(guò)引入 LLM-as-a-judge 來(lái)擴(kuò)大規(guī)模。

為保證透明度,也可使用 BERTScore 等語(yǔ)義評(píng)估工具,對(duì)比語(yǔ)義相似度。為簡(jiǎn)潔起見,這里就不詳細(xì)展開現(xiàn)有工具了。

綜上,團(tuán)隊(duì)可能仍會(huì)用 BLEU、ROUGE 等重疊指標(biāo)進(jìn)行快速合理性檢查,或在可能的情況下依賴完全匹配解析,但如今的新趨勢(shì)是用另一個(gè)大語(yǔ)言模型來(lái)評(píng)判輸出結(jié)果。

三、大語(yǔ)言模型應(yīng)用的評(píng)估方法

現(xiàn)在的核心變化是:我們不再只測(cè)試 LLM 本身,而是測(cè)試整個(gè)系統(tǒng)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

只要條件允許,我們?nèi)詴?huì)像以前一樣用程序化方法評(píng)估。

對(duì)于更細(xì)微的輸出,我們可以先通過(guò) BLEU、ROUGE 這類低成本、確定性的指標(biāo)查看 n 元語(yǔ)法重疊情況,但如今大多數(shù)現(xiàn)代框架都會(huì)用 LLM 評(píng)分器進(jìn)行評(píng)估。

有三個(gè)領(lǐng)域值得探討:多輪對(duì)話、RAG 和智能體(Agent)的評(píng)估方法及相關(guān)指標(biāo)。

你可以看到,這三個(gè)領(lǐng)域已定義的指標(biāo)數(shù)量非常多。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

接下來(lái),我們先簡(jiǎn)要介紹這些指標(biāo),再講解能提供幫助的各類框架。

3.1 多輪對(duì)話評(píng)估

首先要講的是多輪對(duì)話(常見于聊天機(jī)器人)的評(píng)估搭建方法。

我們與聊天機(jī)器人互動(dòng)時(shí),希望對(duì)話自然、專業(yè),機(jī)器人能記住關(guān)鍵信息,全程不偏離主題,且能準(zhǔn)確回答問(wèn)題。

目前有不少常用指標(biāo)可跟蹤,首先來(lái)看 “相關(guān)性 / 連貫性(Relevancy/Coherence)” 和 “完整性(Completeness)”。

  • 相關(guān)性:用于跟蹤 LLM 是否恰當(dāng)回應(yīng)用戶查詢、不偏離主題;
  • 完整性:若最終結(jié)果能滿足用戶需求,則該指標(biāo)得分高。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

也就是說(shuō),只要能跟蹤整個(gè)對(duì)話過(guò)程中的用戶滿意度,我們就能進(jìn)一步跟蹤對(duì)話是否真的 “降低了支持成本”、“提升了信任度”,以及是否 “提高了自助服務(wù)率”。

其次是 “知識(shí)留存(Knowledge Retention)” 和 “可靠性(Reliability)”。

  • 知識(shí)留存:機(jī)器人是否記住對(duì)話中的關(guān)鍵細(xì)節(jié);
  • 可靠性:能否確保機(jī)器人不 “混亂”—— 不僅要記住細(xì)節(jié),還要能自我修正。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

在 “氛圍編碼工具(vibe coding tools)” 中,我們常會(huì)遇到機(jī)器人忘記之前犯的錯(cuò)誤、反復(fù)出錯(cuò)的情況,這種情況就可判定為 “可靠性(或穩(wěn)定性)低”。

第三是 “角色一致性(Role Adherence)” 和 “提示對(duì)齊(Prompt Alignment)”。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 這兩個(gè)指標(biāo)用于跟蹤 LLM 是否堅(jiān)守給定角色,以及是否遵循系統(tǒng)提示中的指令。

接下來(lái)是與安全性相關(guān)的指標(biāo),如 “幻覺(jué)(Hallucination)” 和 “偏見 / 毒性(Bias/Toxicity)”。

  • 幻覺(jué):該指標(biāo)很重要,但評(píng)估難度較大。有人會(huì)嘗試通過(guò)網(wǎng)頁(yè)搜索驗(yàn)證輸出,也有人會(huì)將輸出拆分為不同斷言,用更大規(guī)模的模型(LLM-as-a-judge 模式)評(píng)估。

a.還有其他方法,比如 SelfCheckGPT—— 對(duì)同一提示多次調(diào)用模型,查看模型是否堅(jiān)持最初答案、偏離次數(shù)多少,以此判斷一致性。

  • 偏見 / 毒性:可通過(guò)其他 NLP 方法評(píng)估,例如用微調(diào)后的分類器。

此外,你可能還需要跟蹤一些應(yīng)用定制化指標(biāo),比如代碼正確性、安全漏洞、JSON 格式正確性等。

至于評(píng)估方式,并非一定要用 LLM,但多數(shù)情況下,標(biāo)準(zhǔn)解決方案都會(huì)采用 LLM。

如果能提取出正確答案(如解析 JSON),自然無(wú)需使用 LLM。正如之前所說(shuō),許多 LLM 提供商在評(píng)估代碼相關(guān)指標(biāo)時(shí),也會(huì)用單元測(cè)試。

需要說(shuō)明的是:用于評(píng)判的 LLM 并非總是絕對(duì)可靠,就像它們所評(píng)估的應(yīng)用一樣。但目前我沒(méi)有相關(guān)數(shù)據(jù)支持這一點(diǎn),你需要自行調(diào)研。

3.2 檢索增強(qiáng)生成(RAG)評(píng)估

在多輪對(duì)話評(píng)估的基礎(chǔ)上,我們?cè)賮?lái)看看 RAG 系統(tǒng)需要衡量哪些指標(biāo)。

評(píng)估 RAG 系統(tǒng)時(shí),需將流程拆分為兩部分:分別衡量檢索(Retrieval)和生成(Generation)的指標(biāo)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

3.2.1 檢索環(huán)節(jié)評(píng)估

首先要評(píng)估檢索環(huán)節(jié):獲取的文檔是否與查詢匹配。

如果檢索環(huán)節(jié)得分低,可通過(guò)以下方式優(yōu)化系統(tǒng):

  • 制定更優(yōu)的分塊策略;
  • 更換嵌入模型(Embedding Model);
  • 加入混合搜索、重排序等技術(shù);
  • 用元數(shù)據(jù)過(guò)濾等。

評(píng)估檢索效果,既可以用依賴精選數(shù)據(jù)集的傳統(tǒng)指標(biāo),也可以用基于 LLM-as-a-judge 的無(wú)參考方法。

  • 先說(shuō)說(shuō)經(jīng)典的信息檢索(IR)指標(biāo),它們是最早出現(xiàn)的檢索評(píng)估指標(biāo)。使用這些指標(biāo)需要 “黃金答案(Gold Answers)”—— 即針對(duì)某個(gè)查詢,對(duì)每個(gè)文檔進(jìn)行排序。

    a.雖然可以用 LLM 構(gòu)建這類數(shù)據(jù)集,但評(píng)估時(shí)無(wú)需 LLM,因?yàn)閿?shù)據(jù)集中已有可對(duì)比的分?jǐn)?shù)。

    b.最知名的 IR 指標(biāo)包括 Precision@k(前 k 個(gè)結(jié)果的精確率)、Recall@k(前 k 個(gè)結(jié)果的召回率)和 Hit@k(前 k 個(gè)結(jié)果中是否有相關(guān)文檔)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

    c.這些指標(biāo)分別衡量:獲取的相關(guān)文檔數(shù)量、基于黃金參考答案檢索到的相關(guān)文檔數(shù)量,以及結(jié)果中是否至少包含一個(gè)相關(guān)文檔。

  • 而 RAGAS、DeepEval 等較新的框架,則引入了無(wú)參考、LLM 評(píng)分式的指標(biāo),如 Context Recall(上下文召回率)和 Context Precision(上下文精確率)。
  • 這些指標(biāo)通過(guò) LLM 判斷:基于查詢,前 K 個(gè)結(jié)果中是否包含真正相關(guān)的文本塊。
  • 簡(jiǎn)單來(lái)說(shuō),就是判斷系統(tǒng)是否返回了與查詢相關(guān)的文檔,或者是否包含過(guò)多無(wú)關(guān)文檔,導(dǎo)致無(wú)法正確回答問(wèn)題。

構(gòu)建檢索評(píng)估數(shù)據(jù)集的方法有兩種:

  • 從真實(shí)日志中挖掘問(wèn)題,再由人工整理;
  • 借助 LLM 使用數(shù)據(jù)集生成器 —— 多數(shù)框架中都有這類工具,也有 YourBench 這樣的獨(dú)立工具。

若你想基于 LLM 搭建自己的數(shù)據(jù)集生成器,可參考以下示例:

# 生成問(wèn)題的提示語(yǔ)
qa_generate_prompt_tmpl = """
以下是上下文信息。
--------------------- 
{context_str} 
---------------------
根據(jù)上述上下文信息,且不依賴任何先驗(yàn)知識(shí),
基于上述上下文生成{num}個(gè)問(wèn)題和{num}個(gè)答案。...
"""

3.2.2 生成環(huán)節(jié)評(píng)估

再來(lái)看 RAG 系統(tǒng)的生成環(huán)節(jié):評(píng)估模型能否利用提供的文檔準(zhǔn)確回答問(wèn)題。

如果該環(huán)節(jié)表現(xiàn)不佳,可通過(guò)以下方式調(diào)整:

  • 優(yōu)化提示詞(Prompt);
  • 調(diào)整模型參數(shù)(如溫度系數(shù) temperature);
  • 更換模型;
  • 針對(duì)特定領(lǐng)域知識(shí)微調(diào)模型;
  • 強(qiáng)制模型通過(guò)思維鏈(CoT)模式推理;
  • 檢查模型的自我一致性等。

評(píng)估生成環(huán)節(jié)時(shí),RAGAS 框架的指標(biāo)很實(shí)用,包括 Answer Relevancy(答案相關(guān)性)、Faithfulness(忠誠(chéng)度)和 Noise Sensitivity(噪聲敏感度)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 答案相關(guān)性:判斷答案是否真正回應(yīng)了用戶問(wèn)題;
  • 忠誠(chéng)度:判斷答案中的每個(gè)斷言是否都有檢索到的文檔支持;
  • 噪聲敏感度:判斷少量無(wú)關(guān)上下文是否會(huì)導(dǎo)致模型輸出偏離正確方向。

以 RAGAS 為例,其評(píng)估第一個(gè)指標(biāo)(答案相關(guān)性)的方式可能是:將問(wèn)題、答案和檢索到的上下文輸入 LLM,讓 LLM 按 0-1 分打分,“1 分” 表示答案完全貼合問(wèn)題,最終可根據(jù)原始分?jǐn)?shù)計(jì)算平均值。

綜上,評(píng)估 RAG 系統(tǒng)需將其拆分為檢索和生成兩個(gè)環(huán)節(jié)。既可以用基于 IR 指標(biāo)的方法,也可以用基于 LLM 評(píng)分的無(wú)參考方法。

3.3 智能體(Agent)評(píng)估

最后要講的是智能體評(píng)估 —— 除了上述提到的輸出、對(duì)話和上下文評(píng)估,智能體還擴(kuò)展了新的評(píng)估指標(biāo)。

評(píng)估智能體時(shí),我們不僅關(guān)注輸出、對(duì)話和上下文,還要評(píng)估它的 “行動(dòng)能力”:

  • 能否完成任務(wù)或流程;
  • 完成效率如何;
  • 是否能在合適的時(shí)機(jī)調(diào)用正確的工具。

不同框架對(duì)這些指標(biāo)的命名可能不同,但核心要跟蹤的兩個(gè)指標(biāo)是 Task Completion(任務(wù)完成度)和 Tool Correctness(工具正確性)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 工具正確性:評(píng)估智能體是否為用戶查詢調(diào)用了正確的工具。

     測(cè)試時(shí)需要內(nèi)置包含真值的 “黃金腳本(Gold Script)”,但只需編寫一次,后續(xù)每次修改系統(tǒng)后都可復(fù)用。

  • 任務(wù)完成度:評(píng)估時(shí)需查看完整的操作軌跡和目標(biāo),按 0-1 分打分并給出理由,以此衡量智能體完成任務(wù)的效果。

此外,根據(jù)智能體的具體應(yīng)用場(chǎng)景,可能還需要測(cè)試前面提到的其他指標(biāo)。

需要注意的是:盡管已有不少定義好的指標(biāo),但不同應(yīng)用場(chǎng)景需求不同。了解常見指標(biāo)很有必要,但不要默認(rèn)它們就是最適合你應(yīng)用的評(píng)估指標(biāo)。

四、實(shí)用評(píng)估框架推薦

目前有很多框架可輔助評(píng)估工作,本文重點(diǎn)介紹幾個(gè)常用框架:RAGAS、DeepEval、OpenAI 的 Evals 庫(kù)和 MLFlow 的 Evals 庫(kù),分析它們的優(yōu)勢(shì)和適用場(chǎng)景。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

你可以在這個(gè)代碼倉(cāng)庫(kù)中找到我整理的所有評(píng)估框架列表。

此外,也可以使用一些框架專屬的評(píng)估系統(tǒng)(如 LlamaIndex),尤其適合快速原型開發(fā)。

  • OpenAI 和 MLFlow 的 Evals 更偏向 “附加工具”,而非獨(dú)立框架;
  • RAGAS 主要定位為 RAG 應(yīng)用的指標(biāo)庫(kù)(不過(guò)也提供其他指標(biāo));
  • DeepEval 可能是所有框架中功能最全面的評(píng)估庫(kù)。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

但需要說(shuō)明的是,這些框架都具備以下功能:

  1. 支持在自定義數(shù)據(jù)集上運(yùn)行評(píng)估;
  2. 可用于多輪對(duì)話、RAG 和智能體評(píng)估;
  3. 支持 LLM-as-a-judge;
  4. 允許設(shè)置自定義指標(biāo);
  5. 兼容持續(xù)集成(CI)流程。

正如前面提到的,它們的區(qū)別主要在功能全面性上:

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • MLFlow 最初是為評(píng)估傳統(tǒng)機(jī)器學(xué)習(xí)管道設(shè)計(jì)的,因此針對(duì) LLM 應(yīng)用的指標(biāo)數(shù)量較少;
  • OpenAI 的 Evals 框架非常輕量化,需要用戶自行設(shè)置指標(biāo),不過(guò)它提供了示例庫(kù)幫助入門;
  • RAGAS 提供了不少指標(biāo),且可與 LangChain 集成,方便運(yùn)行;
  • DeepEval 內(nèi)置功能豐富,甚至包含了 RAGAS 的指標(biāo)。

你可以在這個(gè) GitHub 倉(cāng)庫(kù)中查看上述框架的指標(biāo)對(duì)比表。

觀察這些框架提供的指標(biāo),能大致了解它們的功能覆蓋范圍。

需要注意的是:提供指標(biāo)的框架在命名上往往沒(méi)有統(tǒng)一標(biāo)準(zhǔn) —— 不同框架中名稱不同的指標(biāo),實(shí)際含義可能一致。

例如:

  • 一個(gè)框架中的 “忠誠(chéng)度(Faithfulness)”,可能和另一個(gè)框架中的 “ groundedness(扎根性)” 含義相同;
  • “答案相關(guān)性(Answer Relevancy)” 可能等同于 “響應(yīng)相關(guān)性(Response Relevance)”。

這種命名混亂給系統(tǒng)評(píng)估帶來(lái)了不必要的麻煩和復(fù)雜性。

不過(guò),DeepEval 的優(yōu)勢(shì)很突出:它提供了 40 多種指標(biāo),還推出了 G-Eval 框架,可幫助快速搭建自定義指標(biāo),是從 “想法” 到 “可運(yùn)行指標(biāo)” 最快的工具。

OpenAI 的 Evals 框架則更適合需要定制邏輯的場(chǎng)景,而非快速評(píng)估需求。

據(jù) DeepEval 團(tuán)隊(duì)介紹,自定義指標(biāo)是開發(fā)者最常搭建的功能。因此,不必糾結(jié)于 “哪個(gè)框架提供了什么指標(biāo)”—— 你的應(yīng)用場(chǎng)景是獨(dú)特的,評(píng)估方式也應(yīng)如此。

那么,不同場(chǎng)景該如何選擇框架呢?

  • 若需要針對(duì) RAG 管道的專用指標(biāo),且希望最小化配置工作,選 RAGAS;
  • 若需要功能全面、開箱即用的評(píng)估套件,選 DeepEval;
  • 若已在使用 MLFlow,或偏好內(nèi)置跟蹤和 UI 功能,MLFlow 是不錯(cuò)的選擇;
  • 若依賴 OpenAI 基礎(chǔ)設(shè)施,且需要靈活性,OpenAI 的 Evals 框架(盡管最精簡(jiǎn))更合適。

此外,DeepEval 還通過(guò)其 DeepTeam 框架提供 “紅隊(duì)測(cè)試(Red Teaming)” 功能,可自動(dòng)對(duì) LLM 系統(tǒng)進(jìn)行對(duì)抗性測(cè)試。其他框架也有類似功能,但可能不如 DeepEval 全面。

未來(lái),我計(jì)劃專門探討 LLM 系統(tǒng)的對(duì)抗性測(cè)試和提示詞注入問(wèn)題 —— 這是個(gè)很有意思的話題。

五、注意事項(xiàng)

數(shù)據(jù)集相關(guān)業(yè)務(wù)利潤(rùn)豐厚,因此現(xiàn)在我們能夠用其他 LLM 標(biāo)注數(shù)據(jù)或?yàn)闇y(cè)試打分,這是一個(gè)很好的發(fā)展階段。

但 LLM 評(píng)分器并非 “萬(wàn)能工具”,你搭建的評(píng)估體系可能會(huì)像其他 LLM 應(yīng)用一樣,存在不穩(wěn)定問(wèn)題。據(jù)網(wǎng)絡(luò)信息顯示,大多數(shù)團(tuán)隊(duì)和企業(yè)會(huì)每幾周進(jìn)行一次人工抽樣審核,以確保評(píng)估的真實(shí)性。

你為應(yīng)用搭建的指標(biāo)很可能是定制化的,盡管本文介紹了不少通用指標(biāo),但最終你或許還是需要自行開發(fā)適合自己的評(píng)估指標(biāo)。

不過(guò),了解這些標(biāo)準(zhǔn)指標(biāo)仍非常有必要。

希望本文能為你提供有價(jià)值的參考實(shí)現(xiàn)。

好了,這就是我今天想分享的內(nèi)容。


本文轉(zhuǎn)載自???玄姐聊AGI??  作者:玄姐

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-10-24 10:03:45修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
天堂网成人在线| 天天做天天爱天天高潮| 国产精品欧美综合| 国产精品不卡| 亚洲精品一区二区三区四区高清| 国产精品专区在线| 中文字幕在线视频区| 国产精品一区二区三区四区| 午夜精品久久久久久久久久久久久 | 视频一区二区在线| 亚洲高清视频网站| 日本视频一区二区三区| 欧美大片在线影院| 免费成人深夜天涯网站| 91国内精品| 欧美亚洲动漫精品| 91精品国产91久久久久麻豆 主演| 欧美日韩伦理片| 国产精品一色哟哟哟| 日韩美女福利视频| 久久婷婷一区二区| 成人精品天堂一区二区三区| 亚洲国产精品久久| 五月天视频在线观看| 桃色av一区二区| 一卡二卡三卡日韩欧美| 五月婷婷综合色| 亚洲欧美自偷自拍| 国v精品久久久网| 国产精品自拍小视频| 999这里只有精品| 欧美日韩p片| 久久成人精品视频| 久久久久久久久福利| 天海翼精品一区二区三区| 日韩精品一区二区三区蜜臀| 91小视频网站| 精品3atv在线视频| 偷拍一区二区三区| 美女扒开大腿让男人桶| av免费看在线| 中文字幕亚洲精品在线观看 | 久久久久中文字幕亚洲精品| 久久亚洲国产精品尤物| 色呦呦国产精品| 久久久久人妻精品一区三寸| www.超碰在线| 午夜av区久久| 福利视频一二区| av福利在线导航| 亚洲一二三区在线观看| 久久www视频| 色呦呦网站在线观看| 亚洲三级在线看| 久久免费视频2| 成人av福利| 亚洲精品成人在线| 国产美女作爱全过程免费视频| 国产精品扒开做爽爽爽的视频 | 精品视频在线播放免| 青青草视频网站| 国产一区丝袜| 亚洲欧美国内爽妇网| 日韩网站在线播放| 国产亚洲电影| 色噜噜狠狠狠综合曰曰曰| 欧美精品日韩在线| 91精品亚洲| 欧美精品久久久久久久免费观看| 国产亚洲精品av| 国产日韩欧美一区在线| 青青久久aⅴ北条麻妃| 波多野结衣一二区| 狠狠色狠狠色综合系列| 99久久久精品免费观看国产 | 欧美综合在线播放| 一级毛片久久久| 精品视频1区2区| 交换做爰国语对白| 久久悠悠精品综合网| 亚洲欧美中文字幕在线一区| 女教师淫辱の教室蜜臀av软件| 亚洲人体av| 97国产suv精品一区二区62| 久久久久久不卡| 精品一区二区综合| 国产精品免费一区二区三区观看| 三级国产在线观看| 国产精品国产三级国产aⅴ中文| 日本成人在线不卡| 伊人成综合网站| 欧美日韩精品免费| 国产精品成人99一区无码| 九九久久电影| 欧美人与物videos| 五月婷婷激情五月| 国产精品一二三在| 黄色99视频| 午夜免费播放观看在线视频| 亚洲影院在线观看| 99久久国产宗和精品1上映| 999久久久国产999久久久| 亚洲精品美女在线| 国产午夜手机精彩视频| 国产精品免费看| 亚洲在线www| 国产特黄在线| 亚洲国产一二三| 精品久久久99| 免费一区二区三区视频导航| 久久99精品久久久久久青青91| jizz国产在线观看| 国产黄色精品网站| 亚洲bbw性色大片| 678在线观看视频| 91精品国产色综合久久| 国产精品久久久久无码av色戒| 永久91嫩草亚洲精品人人| 日韩av片电影专区| 欧美理论在线观看| 午夜精品国产更新| 久久久久无码精品| 国产大片一区| 国产精品啪视频| 你懂的免费在线观看视频网站| 夜夜嗨av一区二区三区四季av | 中文字幕亚洲情99在线| 欧美bbbbbbbbbbbb精品| 国产成人福利片| 美国av在线播放| 欧美亚洲人成在线| 伊是香蕉大人久久| 中文字幕一区在线播放| 成人a区在线观看| 免费看日本黄色| 国产在线视频欧美一区| 社区色欧美激情 | 亚洲男人天堂网址| 国产午夜精品在线观看| 人妻精品无码一区二区三区| 久久久免费毛片| 国内免费精品永久在线视频| 午夜精品小视频| 亚洲精选视频免费看| 超碰91在线播放| 亚洲成人日韩| av免费观看久久| 免费网站在线观看人| 欧美成人性福生活免费看| 欧美片一区二区| 成人免费视频一区| 国产96在线 | 亚洲| 亚洲一区二区三区在线免费| 欧美日本中文字幕| 成人免费一级视频| 亚洲成人1区2区| 国产美女视频免费观看下载软件| 在线观看一区视频| 激情小说网站亚洲综合网| а√天堂中文资源在线bt| 亚洲国产精品热久久| 精品欧美一区二区三区免费观看| 99re视频精品| 国产免费视频传媒| 欧美hd在线| 91黄在线观看| 国产夫妻在线| 亚洲人成电影网站色www| 波多野结衣黄色| 亚洲视频免费在线观看| 国产无套精品一区二区三区| 激情欧美日韩一区| 欧美最大成人综合网| 韩国理伦片久久电影网| 久久影院在线观看| 五月天婷婷社区| 欧美吻胸吃奶大尺度电影 | 午夜激情一区二区| 国产又大又粗又爽的毛片| 极品少妇一区二区| 成人免费视频91| 精品一区av| 7777精品伊久久久大香线蕉语言| 精精国产xxxx视频在线野外 | 黄色99视频| 精品久久在线| 欧美极品欧美精品欧美视频| 日本亚洲一区| 91麻豆精品91久久久久同性| 日本一级黄色大片| 国产精品国产三级国产专播品爱网| 日韩精品在线播放视频| 欧美一区=区| 男女啪啪免费观看| 国产va免费精品观看精品视频 | 免费av网址在线| 欧美在线二区| 欧美另类一区| 亚洲亚洲一区二区三区| 国产精品av电影| 538在线观看| 久热精品在线视频| 久久电影视频| 亚洲成人网在线观看| 中文字幕在线观看1| 午夜亚洲福利老司机| 中文字幕乱码av| 2020日本不卡一区二区视频| 亚洲图片 自拍偷拍| 日韩电影在线一区二区三区| 91传媒免费视频| 久久高清精品| 日本精品免费| 欧美色图婷婷| 99在线高清视频在线播放| 99re久久| 日本久久久久久| 草草视频在线| 久久久久国产精品免费网站| 黄色成人在线| 综合国产在线视频| 九一国产在线| 日韩精品免费看| 亚洲国产999| 欧美一卡二卡在线观看| 一级片视频免费| 在线观看不卡视频| 伊人手机在线视频| 欧美日韩一区二区三区在线免费观看| 欧美成人三级在线观看| 中文字幕综合网| 国精产品一区一区| 中文字幕免费观看一区| 久久久久久国产精品无码| 97精品久久久午夜一区二区三区 | 国产精品久久久久久9999| 日韩电影免费在线| 十八禁视频网站在线观看| 国产欧美日韩一区二区三区在线| 国产乱淫av片杨贵妃| 欧美精品不卡| 国产精品自拍合集| 黄色另类av| 99在线精品免费视频| 亚洲精品裸体| 国产免费黄色av| 小嫩嫩精品导航| 任你操这里只有精品| 久久一区视频| 香蕉视频网站入口| 免费成人性网站| 亚洲一区二区在线视频观看| 久久国产精品无码网站| 激情文学亚洲色图| 国产一区二区中文字幕| 成人在线短视频| 成人不卡免费av| 一区二区三区少妇| 国产日韩v精品一区二区| 国产熟女一区二区| 中文字幕一区二区三区在线播放 | 日韩欧美中文字幕一区| www.五月激情| 亚洲国产精品999| 色视频在线观看| 色婷婷久久av| 欧美亚洲天堂| 欧美最顶级丰满的aⅴ艳星| 播放一区二区| 91欧美激情另类亚洲| 欧美激情第6页| 九九热精彩视频| 亚洲一区av在线| 人妻 日韩精品 中文字幕| 在线观看不卡视频| 国产精品午夜福利| 日韩一区二区三区免费观看| 蜜臀av免费在线观看| 日韩精品在线看| 网友自拍视频在线| 欧美激情一区二区久久久| 2022成人影院| 91精品视频免费看| 国产一区丝袜| 亚洲最新在线| 影音先锋在线一区| 日本xxxx黄色| 岛国精品在线观看| 公肉吊粗大爽色翁浪妇视频| 亚洲天堂av一区| 亚洲黄色免费观看| 欧美一区二区三区不卡| 手机在线观看免费av| 色系列之999| 国模精品视频| 96pao国产成视频永久免费| 亚洲婷婷伊人| 屁屁影院ccyy国产第一页| 玖玖玖国产精品| 亚洲精品鲁一鲁一区二区三区| 久久精品视频一区二区三区| 好吊日在线视频| 在线一区二区观看| 黄色a在线观看| 日韩中文字幕久久| 英国三级经典在线观看| 97视频热人人精品| 欧美呦呦网站| 日日碰狠狠添天天爽超碰97| 韩国午夜理伦三级不卡影院| 偷拍女澡堂一区二区三区| 一区二区三区四区五区视频在线观看| 欧美brazzers| 日韩av中文在线| 最新av在线播放| 国产欧美va欧美va香蕉在线| 亚洲人成网亚洲欧洲无码| 2021国产视频| 韩国一区二区视频| 天堂资源在线视频| 日韩欧美国产一区二区| 日韩一级免费毛片| 欧美黄色三级网站| www.久久爱.com| 亚洲人体一区| 久久久久91| 黄色正能量网站| 午夜精品久久久久久| www.99视频| 欧美国产日韩一区二区| 麻豆国产一区| 四虎免费在线观看视频| 奇米影视一区二区三区小说| 亚洲一区二区观看| 精品日本高清在线播放| 国产 欧美 精品| 久久久人成影片一区二区三区| 久久久久亚洲精品中文字幕| 99精品视频网站| 久久精品国产**网站演员| 三级网站在线免费观看| 黑人精品xxx一区| 免费在线观看一级毛片| 日本成人免费在线| 亚洲妇女av| 北条麻妃av高潮尖叫在线观看| 26uuu亚洲| 国产剧情在线视频| 亚洲视频999| jizz欧美| 日本成人性视频| 国产69精品久久99不卡| 日本三级午夜理伦三级三| 亚洲国产精品悠悠久久琪琪| а√在线中文在线新版| 久久精品成人一区二区三区蜜臀 | 日本xxxxxxxxxx75| 不卡的av在线播放| 一区二区三区视频免费看| 亚洲精品小视频在线观看| 高潮一区二区| 亚洲人成77777| 国产乱码字幕精品高清av| 久久中文免费视频| 精品成人a区在线观看| 日韩激情电影| 日韩精品不卡| 国内成人自拍视频| 精品视频一区二区在线观看| 日韩高清a**址| 福利一区和二区| 91国在线高清视频| 91最新地址在线播放| 国产午夜麻豆影院在线观看| 在线视频国产日韩| 亚洲国产伊人| 国产一级爱c视频| 日本一区二区三区四区| 国产喷水福利在线视频| 性色av一区二区咪爱| 国产亚洲电影| 欧美69精品久久久久久不卡| 欧美日韩国产区| 国产高清美女一级毛片久久| 亚洲综合日韩在线| 亚洲中字在线| 国产成人免费在线观看视频| 精品精品国产高清一毛片一天堂| 色资源二区在线视频| 亚洲欧美综合一区| 成人免费看的视频| 亚洲中文无码av在线| 久久久久一本一区二区青青蜜月| 九九精品在线| 亚洲国产精品第一页| 欧美性一二三区| а√在线中文网新版地址在线| 一区二区不卡视频| 97精品久久久午夜一区二区三区| 91精东传媒理伦片在线观看|