精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何測試大型語言模型

譯文
人工智能
投資生成式人工智能的公司發現,測試和質量保證是兩個最需要改進的關鍵領域。以下是針對嵌入生成式AI應用中的LLMs(大型語言模型)的四種測試策略。

圍繞使用AI助手來減少手動工作、通過代碼生成器提高軟件開發者的生產力,以及利用生成式AI進行創新,這些話題一直為公眾所熱議。同時,商業機會正推動許多開發團隊構建知識庫、使用向量數據庫,并在其應用中嵌入大型語言模型(LLMs)。

構建具有LLM能力的應用程序的一些通用用例,包括搜索體驗、內容生成、文檔摘要、聊天機器人和客戶支持應用。行業示例包括在醫療保健中開發患者門戶、在金融服務中改善初級銀行家的工作流程,以及為制造業的未來鋪平道路。

投資LLMs的公司面臨一些前期障礙,包括改進數據治理、提高數據質量、選擇LLM架構、解決安全風險,并制定云基礎設施計劃。

我對組織如何測試他們的LLM模型和應用程序有更大的擔憂。新聞中的問題包括一家航空公司兌現其聊天機器人提供的退款、關于版權侵權的訴訟,以及降低幻覺風險。

Roadz的聯合創始人兼首席運營官Amit Jain表示:“測試LLM模型需要一種多方面的方法是超越技術嚴謹性的。團隊應該進行迭代改進,并創建詳細的文檔以記錄模型的開發過程、測試方法和性能指標。與研究社區進行互動,以基準測試和分享最佳實踐也是有效的。”

針對嵌入式LLMs的4種測試策略

開發團隊需要一個LLM測試策略。作為起點,考慮以下用于測試嵌入自定義應用程序中的LLMs的做法:

1.創建測試數據以擴展軟件QA

2.自動化模型質量和性能測試

3.根據用例評估RAG質量

4.開發質量指標和基準

5.創建測試數據以擴展軟件QA

大多數開發團隊不會創建通用的LLMs,而是為特定的最終用戶和用例開發應用程序。為了制定測試策略,團隊需要了解用戶角色、目標、工作流程和涉及的質量基準。

Mindbreeze的首席技術官Jakob Praher表示:“測試LLMs的第一個要求是了解LLM應該能夠解決的任務。”“對于這些任務,人們會構建測試數據集以建立LLM性能的指標。然后,人們可以系統地優化提示或微調模型。”

例如,為客服設計的LLM可能包括常見用戶問題和最佳響應的測試數據集。其他LLM用例可能沒有直接的方法來評估結果,但開發人員仍然可以使用測試數據進行驗證。

Solix Technologies的工程副總裁Kishore Gadiraju表示:“測試LLM最可靠的方法是創建相關的測試數據,但挑戰在于創建這樣一個數據集的成本和時間。”“像任何其他軟件一樣,LLM測試包括單元、功能、回歸和性能測試。此外,LLM測試需要偏見、公平性、安全性、內容控制和可解釋性測試。”

自動化模型質量和性能測試

一旦有了測試數據集,開發團隊應該根據質量目標、風險和成本考慮采取幾種測試方法。Toloka AI的首席執行官Olga Megorskaya表示:“公司開始向自動化評估方法轉變,而不是人類評估,因為它們具有時間和成本效率。”“然而,在關鍵情況下,公司仍應聘請領域專家,以捕捉自動化系統可能忽視的細微差別。”

對于開發人員或數據科學家來說,找到自動化和人在循環測試之間的正確平衡并不容易。Astronomer的數據和AI高級副總裁Steven Hillion表示:“我們建議對建模過程的每個步驟進行自動化基準測試,然后對端到端系統進行自動化和手動驗證的混合”“對于主要應用程序版本,您幾乎總是希望對測試集進行最后一輪手動驗證。這在您引入了新的嵌入、新模型或新提示,并且您期望提高總體質量水平時尤其如此,因為改進通常是微妙或主觀的。”

在有健全的LLM測試平臺之前,手動測試是一個謹慎的措施。Relational AI的研究ML副總裁Nikolaos Vasiloglou表示:“沒有用于系統測試的最新測試平臺。”“當涉及到可靠性和幻覺時,知識圖譜問題生成機器人是最好的解決方案。”

Gadiraju分享了以下LLM測試庫和工具:

1.AI Fairness 360,一個開源工具包,用于檢查、報告和減輕機器學習模型中的歧視和偏見;

2.DeepEval,一個開源的LLM評估框架,類似于Pytest,但專門用于單元測試LLM輸出;

3.Baserun,一個幫助調試、測試和迭代改進模型的工具;

4.Nvidia NeMo-Guardrails,一個開源工具包,用于在LLM的輸出上添加可編程約束。

IBM Data and AI的數據科學工具和運行時總監Monica Romila分享了企業用例中LLMs的兩個測試領域:

1.模型質量評估使用學術和內部數據集評估模型質量,用于分類、提取、摘要、生成和檢索增強生成(RAG)等用例。

2.模型性能測試驗證模型的延遲(數據傳輸的經過時間)和吞吐量(在一定時間范圍內處理的數據量)。

Romila表示,性能測試取決于兩個關鍵參數:并發請求的數量和生成的令牌數量(模型使用的文本塊)。“重要的是要測試各種負載大小和類型,并與現有模型的性能進行比較,以查看是否需要更新。”

DevOps和云架構師應考慮基礎設施要求,以進行LLM應用程序的性能和負載測試。SADA解決方案工程董事Heather Sundheim表示:“為大型語言模型部署測試基礎設施涉及設置強大的計算資源、存儲解決方案和測試框架。”“自動化配置工具如Terraform和版本控制系統如Git在可重復部署和有效協作中發揮關鍵作用,強調平衡資源、存儲、部署策略和協作工具的重要性,以實現可靠的LLM測試。”

根據用例評估RAG質量

提高LLM準確性的一些技術包括集中內容、使用最新數據更新模型,并在查詢管道中使用RAG。RAG對于將LLMs的強大功能與公司的專有信息結合起來非常重要。

在一個典型的LLM應用程序中,用戶輸入一個提示,應用程序將其發送到LLM,然后LLM生成一個響應,應用程序將其發送回用戶。使用RAG時,應用程序首先將提示發送到信息數據庫,如搜索引擎或向量數據庫,以檢索相關、主題相關的信息。應用程序將提示和這些上下文信息發送到LLM,后者使用這些信息來制定響應。因此,RAG將LLM的響應限制在相關和上下文信息上。

Pryon的首席執行官和創始人Igor Jablokov表示:“RAG對于企業風格的部署更合理,其中對源內容的可驗證歸屬是必要的,尤其是在關鍵基礎設施中。”

使用RAG與LLM已經顯示出可以減少幻覺并提高準確性。然而,使用RAG還增加了一個需要測試其相關性和性能的新組件。測試類型取決于評估RAG和LLM響應的容易程度,以及開發團隊在多大程度上可以利用最終用戶反饋。

我最近與Forethought的首席執行官Deon Nicholas談到了他公司生成型客戶支持AI中使用的RAG評估選項。他分享了三種不同的方法:

1.黃金標準數據集,或人類標記的正確答案數據集,作為模型性能的基準;

2.強化學習,或在現實世界場景中測試模型,例如在與聊天機器人互動后詢問用戶的滿意度;

3.對抗網絡,或訓練一個次要LLM來評估主要的性能,這提供了一種不依賴人類反饋的自動化評估。

Nicholas表示:“每種方法都有權衡,平衡了人類努力與忽視錯誤風險之間的關系。”“最好的系統在系統組件中利用這些方法,以最小化錯誤,促進健全的AI部署。”

開發質量指標和基準

一旦您有了測試數據、一個新的或更新的LLM和一個測試策略,下一步就是根據既定目標驗證質量。

ContractPodAi的首席產品官Atena Reyhani表示:“為了確保開發安全、可靠和值得信賴的AI,創建具體和可衡量的KPI并建立明確的界限非常重要。”“一些需要考慮的標準包括準確性、一致性、速度和與特定領域用例的相關性。開發人員需要評估目標領域中的整個LLM生態系統和運營模型,以確保它提供準確、相關和全面的結果。”

一個學習的工具是Chatbot Arena,一個比較LLM結果的開放環境。它使用Elo評分系統,這是一種經常用于排名競技游戲中玩家的算法,但當一個人評估來自不同LLM算法或版本的響應時,它效果很好。

Immuta的研究副總裁Joe Regensburger表示:“人類評估是測試的核心部分,特別是在‘野外’環境中強化LLM。”“Chatbot Arena是眾包測試的一個例子,這些類型的人類評估研究可以提供一個重要的反饋循環,以納入用戶反饋。”                                                                                         

IBM Data and AI的Romila根據LLM的用例分享了三個需要考慮的指標。

1.F1分數是精確度和召回率的綜合分數,適用于LLM用于分類或預測的情況。例如,客戶支持LLM可以根據其推薦行動方案的能力進行評估。

2.RougeL可用于測試RAG和LLM的摘要用例,但這通常需要一個人類創建的摘要來基準測試結果。

3.sacreBLEU是用于定量評估LLM響應的方法之一,最初用于測試語言翻譯,現在與其他方法如TER、ChrF和BERTScore一起使用。

一些行業有質量和風險指標需要考慮。Aisera的產品管理和市場營銷副總裁Karthik Sj表示:“在教育中,評估適齡性和避免毒性至關重要,但在面向消費者的應用程序中,優先考慮響應的相關性和延遲。”

一旦模型部署,測試就不會結束,數據科學家應該尋找最終用戶的反應、性能指標和其他反饋來改進模型。Amplitude的工程和CISO副總裁Dustin Pearce表示:“部署后,將結果與行為分析集成變得至關重要,提供快速反饋和更清晰的模型性能度量。”

準備生產的一個重要步驟是在應用程序中使用功能標志。AI技術公司Anthropic、Character.ai、Notion和Brex在構建其產品時使用功能標志,以協作地測試應用程序,緩慢地向大型群體引入能力,并將實驗針對不同的用戶細分。

雖然有新興技術來驗證LLM應用程序,但這些技術都不容易實施,也不能提供明確的結果。就目前而言,僅僅構建一個具有RAG和LLM集成的應用程序可能是相對容易的部分,與測試它和支持增強所需的工作相比。

原文標題:How to test large language models

原文作者: Isaac Sacolick

責任編輯:梁佳樂
相關推薦

2025-08-19 10:10:46

2025-08-05 03:22:00

LLM系統語言模型

2024-05-30 08:40:41

大型語言模型LLM人工智能

2024-12-23 08:03:13

2024-03-29 09:00:00

大型語言模型ChatGPT

2023-06-19 16:05:22

大型語言模型人工智能

2024-03-29 15:43:32

大型語言模型人工智能

2023-06-09 08:00:00

QLoRa語言模型微調

2024-12-12 09:11:58

2023-07-10 16:01:56

2024-08-13 08:09:34

2023-03-26 00:24:15

2025-05-08 05:00:00

2025-03-13 12:09:27

2024-06-13 10:52:43

2023-11-06 08:38:50

LLM語言模型ChatGPT

2023-04-27 19:02:30

語言模型管理企業數據

2023-06-24 19:59:40

2022-06-15 07:42:00

谷歌T5模型

2024-05-16 16:37:33

大型語言模型人工智能
點贊
收藏

51CTO技術棧公眾號

后进极品白嫩翘臀在线视频| 中日韩一级黄色片| 日韩欧美一区二区三区在线观看| 国产亚洲一区二区三区在线观看 | 91视频欧美| 久久伊人中文字幕| 亚洲综合视频1区| 日干夜干天天干| 色无极亚洲影院| 亚洲白虎美女被爆操| 一区二区三区韩国| 超碰97国产精品人人cao| 欧美国产日产图区| 国产精品裸体一区二区三区| 中文字幕资源网| 1000部精品久久久久久久久| 日韩一区二区三区在线播放| 可以直接看的无码av| 91丨精品丨国产| 91成人在线观看喷潮| 成人国产在线看| 成人性生交大片免费看午夜| 99久久婷婷国产综合精品电影| 国产精品美女无圣光视频| 一级aaa毛片| 婷婷综合久久| 亚洲人成在线观| 男男做爰猛烈叫床爽爽小说| 免费看一区二区三区| 欧美午夜理伦三级在线观看| 大肉大捧一进一出好爽视频| 在线看三级电影| 国产免费成人在线视频| 久久久久久久久久久一区| 国产精品一区二区av白丝下载 | 污视频网址在线观看| 欧美freesex| 欧美性猛xxx| 日韩小视频在线播放| 暖暖在线中文免费日本| 国产精品私人自拍| 日韩精品资源| 国产福利电影在线| 久久久久久9999| 免费99视频| 午夜成人免费影院| 成人高清视频在线| 国产精品区一区二区三在线播放 | 99精品桃花视频在线观看| 91一区二区三区| 精品久久久久中文慕人妻| 久久99久久精品| 成人免费视频a| 国产伦精品一区二区三区四区 | 欧美24videosex性欧美| 亚洲黄色av一区| www.亚洲成人网| 搞黄网站在线看| 天天影视涩香欲综合网| av免费播放网址| 久久野战av| 欧美视频在线观看一区二区| 少妇一级淫免费播放| 日韩有码欧美| 日韩精品一区二区三区中文不卡| 国产免费a级片| 天堂日韩电影| 在线看国产精品| 日韩精品123区| 国产精品mv在线观看| 国产69精品久久久久9999| 国产成人在线播放视频| 久久三级福利| 成人精品视频久久久久| 亚洲欧美另类一区| 久久久精品天堂| 一区二区在线不卡| 免费污视频在线| 色综合久久综合中文综合网| 9久久婷婷国产综合精品性色| 电影91久久久| 亚洲国产精品久久| 欧洲av一区二区三区| 91精品国产福利在线观看麻豆| 欧美激情亚洲一区| 久草热在线观看| 国产成人一区在线| 欧美亚洲免费在线| 国产精品久久麻豆| 亚洲不卡一区二区三区| 亚洲最大综合网| 中文字幕一区二区三区四区久久 | 国内外成人在线| 精品久久久久久亚洲| 91亚洲精选| 婷婷丁香激情综合| 中文字幕在线视频精品| 看全色黄大色大片免费久久久| 中日韩美女免费视频网站在线观看| 成人免费精品动漫网站| 视频一区二区欧美| 高清国语自产拍免费一区二区三区| 理论视频在线| 一区二区三区中文字幕精品精品| 久久综合久久色| 亚洲一区网址| 久久色免费在线视频| 久久久黄色大片| 从欧美一区二区三区| 亚洲成人av动漫| 阿v视频在线| 91精品久久久久久久99蜜桃| 黄色正能量网站| 欧美视频二区| 成人免费xxxxx在线观看| 猫咪在线永久网站| 亚洲成av人片在线观看| 亚洲综合123| 欧美久久综合网| 奇米四色中文综合久久| 亚洲女人18毛片水真多| 亚洲免费av观看| 天天爽夜夜爽一区二区三区| 亚洲国产合集| 17婷婷久久www| 亚洲国产精品无码久久| 亚洲欧美日韩一区| 成人黄色一级大片| 成人免费a**址| 国产精品免费视频久久久| 青青草超碰在线| 黄色成人av在线| 大尺度做爰床戏呻吟舒畅| 亚洲影视一区| 亚洲aa在线观看| 国产一二区在线| 欧美一区二区三区视频在线| 99精品中文字幕| 麻豆精品新av中文字幕| 亚洲一卡二卡三卡| 欧美aaaaaaaa| 日韩在线视频免费观看| 在线观看xxxx| 国产精品久久影院| 99国产精品久久久久久| 无码一区二区三区视频| 成人美女av在线直播| av网址在线| 日韩美女天天操| 久久午夜无码鲁丝片午夜精品| 国产成人小视频| 欧美精品卡一卡二| 色吊丝一区二区| 日本中文字幕成人| 999在线视频| 欧美日韩国产高清一区二区三区| 久久人妻无码aⅴ毛片a片app | 亚洲黄色在线网站| 老司机亚洲精品| 亚洲精品免费在线看| 欧美国产视频| 九九久久久久久久久激情| 亚洲国产精品欧美久久| 黄网动漫久久久| 免费看黄色av| 狠狠色伊人亚洲综合成人| 一区二区三区精品国产| 天堂久久一区二区三区| 欧美日韩国产另类一区| 国产福利在线导航| 国内成+人亚洲+欧美+综合在线 | 青青操在线视频| 色8久久精品久久久久久蜜| 高清国产在线观看| 国产真实乱子伦精品视频| 少妇大叫太大太粗太爽了a片小说| 国产亚洲精品美女久久| 欧美做受高潮电影o| 亚洲xxxxxx| 日韩精品资源二区在线| 一级片中文字幕| 国产精品系列在线| 欧美一区二区三区影院| 一区二区日韩免费看| 亚洲一区免费看| 成人盗摄视频| 国产精品美女视频网站| 女子免费在线观看视频www| 亚洲欧洲日本专区| av加勒比在线| 在线影院国内精品| 久久久国产成人| 久久精品男人天堂av| 日本网站在线看| 亚洲一区图片| 四虎精品欧美一区二区免费| 丝袜美腿综合| 69174成人网| 色猫猫成人app| 91chinesevideo永久地址| 日本韩国在线视频爽| 亚洲精品美女久久久| 91国在线视频| 色综合天天综合在线视频| 亚洲综合网在线| 久久久蜜臀国产一区二区| 精品人妻人人做人人爽夜夜爽| 日韩精品一二区| 丰满少妇大力进入| 91久久国产| 日本成人黄色免费看| 白嫩白嫩国产精品| 国产在线一区二区三区| 波多野结衣亚洲一二三| 欧美激情精品久久久久久变态| 欧洲一区av| 精品区一区二区| 国产视频一区二区三| 在线欧美日韩国产| 五月天激情国产综合婷婷婷| 亚洲一线二线三线视频| 自拍偷拍你懂的| 久久久99精品免费观看| 日本不卡视频一区| 国产一区二区在线免费观看| 久久久国产欧美| 羞羞答答国产精品www一本| 欧美国产综合在线| 欧美日韩一区二区三区四区在线观看| 欧美日韩成人一区二区三区 | 日韩欧美精品一区二区| 欧洲亚洲视频| 狠狠色噜噜狠狠狠狠色吗综合| 中文字幕久久精品一区二区| 91久久国产精品91久久性色| 国产欧美自拍| 国产精品三级在线| www.久久.com| 国产综合福利在线| 欧美亚洲二区| 国产欧美日韩专区发布| av成人在线看| 国产欧美日韩精品丝袜高跟鞋| 日本欧美一区| 国产精品丝袜久久久久久高清| 国产成人精品一区二三区在线观看 | 强行糟蹋人妻hd中文| 亚洲精品视频自拍| www青青草原| 亚洲一区二区美女| 日本一区二区网站| 午夜激情一区二区| 九九热在线免费观看| 色先锋aa成人| 在线观看国产区| 欧美日韩国产bt| 国产精品熟女久久久久久| 日韩网站在线看片你懂的| 国内老熟妇对白xxxxhd| 精品国产伦理网| 色一情一乱一乱一区91av| 日韩av网站导航| 国产美女性感在线观看懂色av| 国产亚洲精品美女久久久| 1pondo在线播放免费| 免费成人高清视频| cao在线视频| 国产精品99久久久久久久久 | 亚洲精品自拍视频在线观看| 综合久久一区二区三区| 国产对白videos麻豆高潮| 色综合天天综合狠狠| 亚洲天堂狠狠干| 日韩久久久久久| 黄色视屏网站在线免费观看| 色噜噜狠狠狠综合曰曰曰88av| 性欧美ⅴideo另类hd| 96精品视频在线| 欧洲亚洲精品久久久久| 粉嫩精品一区二区三区在线观看 | 国产亚洲激情在线| 黄色在线视频网站| 性金发美女69hd大尺寸| 国产精品原创视频| 国产成人精品免费视频大全最热 | 亚洲欧美高清视频| 国产一区二区三区欧美| 中文字幕在线观看播放| 欧洲一区二区视频| 国产日韩一区二区三免费高清| 国产欧美日韩在线播放| 日本久久黄色| 亚洲熟妇av一区二区三区漫画| 麻豆成人免费电影| 国产激情视频网站| 亚洲日本在线看| 国产精品久免费的黄网站| 欧美日韩国产欧美日美国产精品| 欧美一区,二区| 搡老女人一区二区三区视频tv| 成人黄色动漫| 亚洲一区精品电影| 精品日本12videosex| 无码中文字幕色专区| 狠狠色狠狠色综合系列| 四虎国产精品成人免费入口| 亚洲影院免费观看| 亚洲天堂网视频| 亚洲精品小视频| 毛片在线导航| 91青草视频久久| 国产a久久精品一区二区三区 | 日韩免费福利视频| 国产精品三区www17con| 国产高清一区二区| 嫩草av久久伊人妇女超级a| 成人h动漫精品| 国产精品白嫩白嫩大学美女| 在线亚洲一区二区| 天堂a√中文在线| 久久久久久网址| 日韩成人久久| 在线亚洲美日韩| 奇米精品一区二区三区在线观看| 星空大象在线观看免费播放| 一区二区三区久久久| 国产又粗又猛又爽| 中文字幕日韩综合av| 快播电影网址老女人久久| 麻豆精品传媒视频| 一区二区三区成人精品| 精品少妇人妻av一区二区三区| 亚洲欧美日韩国产综合| 国产精品久久久午夜夜伦鲁鲁| 在线观看日韩av| 992tv国产精品成人影院| 日日骚一区二区网站| 久久婷婷丁香| 蜜桃传媒一区二区亚洲| 91久久国产最好的精华液| 邻居大乳一区二区三区| 日韩免费av片在线观看| 少妇精品久久久一区二区三区| 日本免费黄视频| 久久蜜桃一区二区| 无码人妻丰满熟妇区bbbbxxxx| 亚洲人成绝费网站色www| 欧美日韩精品免费观看视完整| 日本一区二区三区视频在线观看| 午夜在线视频观看日韩17c| 人人妻人人澡人人爽人人精品| 岛国精品视频在线播放| 免费看男男www网站入口在线| 欧美一区视频在线| 国产亚洲电影| 成人性生交免费看| 亚洲婷婷国产精品电影人久久| 国产美女永久免费| 欧美激情视频一区二区三区不卡| 精品国产影院| 成人亚洲视频在线观看| 中文在线一区二区| 一区二区三区黄| 九色成人免费视频| 国产成人av毛片| 日韩av资源在线| 国产精品久久久久久久久免费相片| 国产一区二区在线播放视频| 九九热精品视频| 亚洲黄色录像| 色播五月激情五月| 一区二区三区在线免费观看| 天堂网在线播放| 国产精品高潮呻吟久久av野狼 | 国语对白做受xxxxx在线中国| 日本一区二区成人| 国产成人三级在线播放 | 久久精品色欧美aⅴ一区二区| 日韩成人久久| 日日碰狠狠丁香久燥| 亚洲人成亚洲人成在线观看图片| 性欧美videos另类hd| 日本最新高清不卡中文字幕| 欧美oldwomenvideos| 国产高潮失禁喷水爽到抽搐 | 999久久久亚洲| 国产综合内射日韩久| 欧美性一二三区| 国产后进白嫩翘臀在线观看视频| 视频一区亚洲 | 精品视频第一区| 狠狠色综合播放一区二区| 国产一级片毛片| 欧美成人久久久| 极品美女一区二区三区| 国产亚洲精品成人a| 欧美日韩一级片在线观看| аⅴ资源天堂资源库在线| 7777在线视频| 国产亚洲欧洲997久久综合|