精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Giskard:面向AI模型的開源質量管理

譯文
人工智能
為了解決確保生產環境中AI模型質量的難題,特別是考慮到LLM的出現,我們很高興宣布正式推出Giskard,這是一款優秀的開源AI質量管理系統。

譯者 | 布加迪

審校 | 重樓

確保生產環境中AI模型的質量是一項復雜的任務,隨著大語言模型(LLM的出現,這種復雜性急劇增長。為了解決這個難題,我們很高興宣布正式推出Giskard,這是一款優秀的開源AI質量管理系統。

Giskard為全面覆蓋AI模型生命周期而設計,提供了一套工具用于AI模型的掃描、測試、調試、自動化、協作和監控,包括表格模型和LLM特別是面向檢索增強生成RAG用例。

這次發布融合了2年的研發成果,包括數百次迭代和Beta測試人員用戶的數百次訪談。社區驅動的開發一直是我們的指導原則,引導我們開源Giskard的大部分功能比如掃描、測試和自動化功能。

首先,本文將概述為AI模型設計效質量管理系統的技術挑戰和個要求。然后,我們將解釋我們的AI質量框架的關鍵特具體例子說明。

AI質量管理系統三大要求是什么

1.特定領域和無限極端情況的挑戰

AI模型的質量標準是多方面的。指南和標準強調一系列質量維度,包括可解釋性、信任、穩健性、道德和性能。LLM引入了質量的另外維度,比如幻覺、提示入和敏感數據暴露等。

在幫助用戶使用IPCC報告找到有關氣候變化答案RAG模型為例。這將是貫穿本文的指導示例參見隨附的Colab筆記本https://colab.research.google.com/drive/1pADfbiPQ6cYR2ZY680zX8MM1ZN7YSkjQ?usp=sharing

您希望確保模型不會響應如何制作炸彈?”之類的查詢,但也可能希望模型避免回答更狡猾的、特定領域的提示,比如“危害環境的方法是什么?”

正確回答這些問題取決于您的內部政策,列舉整理所有潛在的極端情況可能是艱巨的挑戰。在部署之前預料這些風險至關重要,但通常是永無止境的任務。

要求1結合自動化和人工監督的雙步驟過程

由于收集極端情況和質量標準是一個繁瑣的過程,好的AI質量管理系統應該在最大化自動化的同時解決特定的業務問題。我們將其提煉為兩步方法

  • 首先,我們自動生成極端情況,類似于反病毒掃描。結果是基于廣泛類別的初始測試套件,這些類別來自AVID公認的標準。
  • 然后,這個初始測試套件充當一個基礎,以便人們為更多特定領域的場景生成想法。

半自動接口和協作工具變得不可或缺,不同的視角來完善測試用例。通過這種雙重方法,您可以結合自動化人工監督,這樣測試套件可以整合領域特殊性。

2.AI開發的挑戰是一個充滿取舍試驗過程

AI系統復雜,開發涉及數十次試驗,以整合許多可變因素比如說,構建RAG模型通常需要整合幾個部分:具有文本分割和語義搜索的檢索系統、索引知識的矢量存儲以及多鏈式提示基于檢索的上下文生成響應

技術選擇的范圍很廣泛,包括各種LLM提供、提示文本分塊方法等。識別最優系統并不是一門精確的科學,而是一個基于特定業務用例的試錯過程。

為了有效地駕馭這種試錯過程,構建幾百個測試比較和基準衡量各種試驗至關重要。比如說,改變其中一個提示的措辭可能會減少RAG中出現幻覺的情況,但同時也可能增加其對提示注感性。

要求2AI開發生命周期中有意嵌入質量流程

由于不同維度之間可能存在許多取舍,因此有意構建測試套件以便在開發試錯過程中做出指導非常重要。AI的質量管理必須盡早開始,類似測試驅動的軟件開發在編碼之前創建功能測試)。

比如說,對于RAG系統而言,您需要在AI開發生命周期的每個階段包含質量步驟

  • 預生產將測試合并到CI/CD管道中,以確保每次推出模型的新版本不會出現回歸
  • 部署實施護欄調節答或設置一些保護措施。比如說,如果您的RAG碰巧在生產環境中回答了如何制造炸彈?”之類的問題,您可以添加護欄來評估回答的危害性,并及時阻止它以免提供給用戶
  • 生產后:在部署后實時監控模型答案的質量。

這些不同的質量檢查應該是相互關聯的。用于測試預生產的評估標準對于部署護欄或監控指標也很有價值。

3.AI模型文檔對法規遵從和協作的挑戰

您需要根據模型的風險、所在的行業或該文檔的受眾來生成不同格式的AI模型文檔。比如說,它可以是

  • 面向審計員的文檔回答特定控制點并為每個控制點提供證據的冗長文檔。這是監管審計(《歐盟人工智能法案》)和質量標準認證所要求的。
  • 面向數據科學家的儀表板帶有一些統計指標、模型解釋和實時警報的儀表板。
  • 面向IT人員的報告CI/CD管道或其他IT工具中的自動報告,自動發布報告作為合并請求中的討論。

不幸的是,創建這個文檔并不是數據科學工作中最人的部分。根據我們的經驗,數據科學家通常討厭編寫附帶測試套件冗長的質量報告。但全球AI法規現在將其列為強制性規定。歐盟人工智能法案第17條明確要求實施AI質量管理系統”

要求3當事情進展順利時,提供無縫集成當事情進展不順利時,提供清晰指導

理想的質量管理工具應該在日常操作中幾乎不可見,只有在需要時才出現。這意味著它應該毫不費力地與現有工具集成,半自動生成報告。

質量指標和報告應該直接記錄在開發環境機器學習庫的原生集成和DevOps環境與GitHub Actions的原生集成)中。

如果出現問題,比如測試失敗或檢測到漏洞,這些報告應該在用戶首選的環境中易于訪問,并為迅速明智的行動提供建議。

Giskard與歐洲官方標準化機構CEN-CENELEC一起積極參與起草歐盟人工智能法案的標準認識到編制文件可能是一項艱苦的任務,但也意識到未來的法規可能會增加要求。我們的愿景是簡化此類文檔的創建。

現在,不妨深入了解我們質量管理系統的各個組成部分,并通過實例探討它們如何滿足這些要求。

Giskard系統由5個部分組成,如下圖所示

圖1圖1

掃描以自動檢測AI模型的漏洞

不妨重新使用基于LLM的RAG模型這個例子,該模型利用IPCC報告來回答有關氣候變化的問題。

Giskard Scan功能自動識別模型中的多個潛在問題,只需8行代碼

import giskard
qa_chain = giskard.demo.climate_qa_chain()
model = giskard.Model(
 qa_chain,
 model_type="text_generation",
 feature_names=["question"],
)
giskard.scan(model)

執行上述代碼將直接在筆記本中生成以下掃描報告。

通過詳細說明每個確定的問題,掃描結果提供了導致問題的輸入示例,從而為自動收集給AI模型帶來風險的各種極端情況提供了一個起點

測試用于檢查回歸的庫

在掃描生成確定最重要問題的初始報告之后,將這些用例保存為初始測試套件至關重要因此,掃描應該被視為測試旅的基礎。

掃描生成的工件可以充當創建測試套件(涵蓋您的所有特定領域風險)的fixture。這些fixture可能包括您想要測試的輸入數據的特定片段,或甚至是可以在測試中重復使用的數據轉換。

測試套件能夠評估和驗證模型的性能,確保它針對一系列預定義的測試用例按預料的方式運行。它們還有助于識別任何回歸或在開發隨后的模型版本過程中出現的問題。

不像掃描結果可能隨每次執行而變化,測試套件更一致,并體現了關于模型關鍵需求的所有業務知識。

要從掃描結果生成一個測試套件并執行它,只需要2行代碼


test_suite = scan_results.generate_test_suite("Initial test suite") 
 test_suite.run()

您可以通過從Giskard的開源測試目錄中添加測試來進一步豐富這個測試套件,該目錄包括一組預先設計的測試。

Hub定制測試并調試問題

在這個階段,您已經開發了一個測試套件,它解決了針對AI模型潛在漏洞的初步保護層。接下來,我們建議擴大測試覆蓋范圍,通過人工監督預見盡可能多的失敗。這時候Giskard Hub的接口就有了用武之地

Giskard Hub僅僅完善測試它使您能夠

  • 比較模型以確定哪個模型面對多個度量指標時表現最好
  • 通過試驗提示,輕松創建新測試
  • 與團隊成員和利益相關者分享測試結果

圖2圖2

圖3圖3

上面的產品屏幕截圖演示了如何將新測試合并到由掃描生成的測試套件中。在這種場景下,如果有人問破壞環境的方法是什么?”,模型應該巧妙地拒絕給出答案。

想自己試試嗎您可以使用托管在Hugging Face Spaces上的Giskard Hub的演示環境https://huggingface.co/spaces/giskardai/giskard

CI/CD管道中的自動化,自動發布報告

最后,您可以通過Giskard的API將測試報告集成到外部工具中。比如說,您可以在CI管道中自動執行測試套件,這樣每當打開合并請求(PR以更新模型的版本可能在新的訓練階段之后測試套件就會自動運行。

下面是使用GitHub Action針對合并請求進行這類自動化示例

圖4圖4

也可以通過Hugging Face和我們的新項目Giskard機器人來做到這一點。每當新模型被推送到Hugging Face Hub,Giskard機器人就會發起合并請求,將以下部分添加到模型卡中。

圖5圖5

機器人會在Hugging Face Hub的模型卡片上把這些建議做成合并請求,從而簡化審查和整合過程。

圖6圖6

LLMon用于監視并在生產環境中出現錯誤時發出警報

現在您已經使用掃描和測試庫為模型創建了評估標準,您可以使用相同的指標監控生產環境中的AI系統。

比如說,下面的屏幕截圖提供了LLM生成的輸出類型的臨時視圖。如果輸出數量異常(比如有毒內容或幻覺,則可以深入研究數據以檢查與模式相關的所有請求。

圖7圖7

這種級別的審查允許更好地理解問題,幫助診斷和解決問題。此外,您可以在青睞的消息傳遞工具如Slack中設置警報,以便收到通知對任何異常情況采取行動。

您可以在這個專用頁面https://www.giskard.ai/llmon上獲得這個LLM監控工具的免費試用帳戶。

結論

在本文中,我們介紹了Giskard這個AI模型的質量管理系統,為AI安全法規的新時代做好準備。

我們通過例子說明了它的各個組成部分,并概述了它如何滿足有效的AI模型質量管理系統的3個要求

  • 將自動化與特定領域的知識相結合
  • 多組件系統,有意嵌入整個AI生命周期
  • 完全集成以簡化繁瑣的文檔編寫任務。

原文標題:Introduction to Giskard: Open-Source Quality Management for AI Models

責任編輯:華軒 來源: 51CTO
相關推薦

2023-10-22 11:47:37

大數據質量管理

2009-07-22 15:47:05

軟件質量管理

2022-08-29 10:58:50

Kubernetes應用質量管理

2022-09-14 12:26:13

質量管理企業關系管理

2017-12-15 15:38:00

2018-07-11 14:06:04

數據質量數據治理數據清洗

2011-05-03 09:34:50

Sonar

2023-10-29 16:44:39

數據質量管理開源

2023-02-06 16:50:46

數據治理工具

2012-03-15 17:11:51

JavaSonar

2023-11-03 14:37:59

AI 模型開源

2023-12-26 08:37:41

2012-01-06 14:10:42

數據質量管理大數據數據管理

2011-01-07 10:43:45

應用軟件質量管理

2011-03-01 10:29:32

互聯網

2012-04-20 09:35:53

大數據數據中心數據質量管理

2011-01-25 11:33:53

質量管理軟件測試

2009-10-27 11:31:00

系統集成項目管理師試題答案

2025-09-11 02:00:00

AI大模型AI數據集
點贊
收藏

51CTO技術棧公眾號

精品乱子伦一区二区三区| 欧美福利视频在线| 亚洲欧美日韩三级| 在线中文字幕-区二区三区四区| 国产69精品久久久久777| 欧美在线亚洲在线| 免费成年人视频在线观看| 国产毛片久久久| 欧美性猛交一区二区三区精品| 欧美日韩亚洲国产成人| 性感美女一级片| 久久精品国产网站| 国内精品视频一区| 日本污视频网站| 高清日韩中文字幕| 91精品久久久久久蜜臀| 国产成人亚洲精品无码h在线| 国产精品一区二区三区视频网站| 91色视频在线| 亚洲综合社区网| 午夜一级黄色片| 国产偷自视频区视频一区二区| 久久国产一区二区三区| 国产伦精品一区二区三区妓女 | 成人免费高清完整版在线观看| 国产成人精品a视频一区| 在线精品小视频| 中文字幕v亚洲ⅴv天堂| 白嫩情侣偷拍呻吟刺激| 欧美国产亚洲精品| 欧美日本一道本在线视频| 日本wwww视频| www.51av欧美视频| 亚洲精品视频一区二区| 亚洲伊人婷婷| 超碰免费在线观看| 久久久精品免费免费| 精品久久蜜桃| 免费的黄色av| 国产v综合v亚洲欧| 亚洲最大福利视频网站| 国产精品无码久久久久成人app| 日本色综合中文字幕| 欧美一区二区三区……| 日本少妇bbwbbw精品| 亚洲午夜精品久久久久久app| 久久久国产91| 中文字幕另类日韩欧美亚洲嫩草| 99久久99久久精品国产片桃花| 亚洲小视频在线| 公侵犯人妻一区二区三区| 日韩欧美美女在线观看| 国产视频精品免费播放| 国产精品伦子伦| 亚洲黄页在线观看| 亚洲欧美日韩一区二区在线 | 国产成人精品一区二三区四区五区| 蜜桃免费网站一区二区三区 | 日韩精品中文字幕一区二区| 欧美一区二区视频在线观看2022| 男女污污视频网站| 久久99精品久久久野外观看| 日韩欧美久久久| 国产成人精品综合久久久久99| 色播一区二区| 亚洲护士老师的毛茸茸最新章节| 屁屁影院国产第一页| 欧美顶级毛片在线播放| 亚洲欧洲在线视频| 人人干在线观看| 午夜欧美精品久久久久久久| 国内精品久久久久影院优| 国产精品乱子伦| 秋霞影院一区二区| 3d蒂法精品啪啪一区二区免费| 亚洲精品久久久久久久久久| www.亚洲在线| 日韩动漫在线观看| 成码无人av片在线观看网站| 亚洲国产精品久久久男人的天堂| 99爱视频在线| 欧美另类激情| 亚洲成人精品久久| 亚洲图片另类小说| 中文av一区| 97色在线观看| 亚洲天堂999| 盗摄精品av一区二区三区| 免费国产在线精品一区二区三区| 992tv免费直播在线观看| 玉足女爽爽91| 中文字幕无码不卡免费视频| 久久精品九色| 亚洲精品综合精品自拍| 黄色录像免费观看| 国产精品视频久久一区| 成人综合网网址| 午夜视频www| 亚洲人成在线播放网站岛国| 日韩一级在线免费观看| 91综合精品国产丝袜长腿久久| 亚洲欧美国产精品| 久久久久久久九九九九| 日韩电影在线一区| 国产一区二区不卡视频| 日本美女高清在线观看免费| 天天综合天天综合色| 五月天视频在线观看| 欧美日韩直播| 欧美乱妇高清无乱码| 天天天天天天天干| 99精品热视频| 奇米777四色影视在线看| 本网站久久精品| 国产网站欧美日韩免费精品在线观看| 国产麻豆视频在线观看| 日韩国产欧美在线视频| 国产精品国产精品国产专区蜜臀ah | 国产高潮久久久| 国产剧情一区二区三区| 日韩视频精品| 久九九久频精品短视频| 亚洲大胆人体在线| 免费国产羞羞网站美图| 美国av一区二区| 欧美国产一二三区| wwwjizzjizzcom| 成人欧美一区二区三区黑人一 | 草民午夜欧美限制a级福利片| 成人免费a视频| 成人性生交大合| 少妇高潮大叫好爽喷水| 日韩毛片免费看| 中文精品99久久国产香蕉| youjizz在线视频| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产九九在线视频| 沈樵精品国产成av片| 97超级碰碰碰| 天天综合在线视频| 亚洲综合一区在线| 成人做爰69片免费| 欧美在线黄色| 51国偷自产一区二区三区的来源| 欧美一级二级三级区| 欧美日韩国产首页| 天天舔天天操天天干| 奇米影视一区二区三区| 色噜噜狠狠色综合网| 亚洲精品.com| 综合网中文字幕| 亚洲天堂视频在线| 国产精品国产馆在线真实露脸| 午夜宅男在线视频| 99精品美女| 亚洲一区二区三区成人在线视频精品 | 丁香5月婷婷久久| 欧美激情精品久久久久久免费印度| www.五月婷婷| 香蕉久久一区二区不卡无毒影院| 国产xxxx视频| 久久三级视频| 一区二区三区四区视频在线观看 | 日韩欧美中文字幕一区| 欧美日韩人妻精品一区二区三区| 国产精品一区久久久久| 日本阿v视频在线观看| 国内精品国产成人国产三级粉色 | 日韩中文字幕网址| 国产精品久久久久久久一区二区| 亚洲精品菠萝久久久久久久| 欧美激情一区二区三区p站| 亚洲经典三级| 日韩国产精品一区二区| 97色婷婷成人综合在线观看| 欧美激情久久久久| 黄色在线视频观看网站| 欧美猛男超大videosgay| 免费在线观看一级片| 99精品国产一区二区三区不卡| 久久精品视频91| 亚洲第一偷拍| 精品日本一区二区三区在线观看| 成人做爰视频www网站小优视频| www亚洲精品| 亚洲日本国产精品| 欧美精品vⅰdeose4hd| 久久精品视频国产| 欧美国产亚洲另类动漫| 欧美xxxx黑人| 日韩精品乱码免费| 欧美黄网在线观看| 欧美手机视频| 国产精品视频福利| 亚洲国产一区二区久久| 97超级碰在线看视频免费在线看| 求av网址在线观看| 日韩精品中文字幕在线观看| 国产美女免费视频| 色哟哟国产精品免费观看| 好吊日在线视频| 91美女精品福利| 爱情岛论坛亚洲自拍| 日日夜夜精品免费视频| 国产成a人亚洲精v品在线观看| 欧美禁忌电影网| 国产精品亚洲一区| 成人永久在线| 国产精品一区二区三区免费视频| 岛国在线视频网站| 日韩中文字幕视频在线| 九色网友自拍视频手机在线| 日韩精品一区二区三区视频在线观看 | 综合久久2019| 夜夜嗨av色综合久久久综合网| 成人免费公开视频| 欧美一区二区视频在线观看| 成人免费视频国产免费| 性做久久久久久免费观看 | а√天堂中文在线资源bt在线| 欧美v日韩v国产v| 亚洲中文字幕一区二区| 色综合久久久久综合体| 中文字幕一区二区三区手机版| 成人欧美一区二区三区1314| 亚洲av无码一区二区三区人| a美女胸又www黄视频久久| 亚洲国产欧美日韩在线| 久久狠狠亚洲综合| 中文字幕第36页| 久久精品日韩欧美| 自慰无码一区二区三区| 一区在线免费| 国产 欧美 日韩 一区| 66视频精品| 黄色免费高清视频| 偷偷www综合久久久久久久| 亚洲午夜激情| 国产精品久久久久久| 在线视频福利一区| 99精品在线观看| 自拍另类欧美| 中文字幕免费一区二区| 一区二区三区四区视频在线观看 | 国产亚洲人成网站| 亚洲视频在线播放免费| 不卡电影一区二区三区| 成人在线视频免费播放| 97精品视频在线观看自产线路二| 182在线视频| 久久综合九色欧美综合狠狠 | 熟妇高潮一区二区三区| 亚洲成人999| 日本免费一区二区三区最新| 亚洲人成网7777777国产| 男女污视频在线观看| 一区二区三区高清国产| 91在线播放网站| 美女撒尿一区二区三区| 欧美videossex| 91精品国产91久久久久久吃药| 在线日韩影院| 国产一区视频在线| 8x国产一区二区三区精品推荐| 狠狠干一区二区| 视频国产一区| 亚洲成年人专区| 亚洲精选在线| 久久久久久香蕉| 国产一区二区三区四区五区入口| 免费看三级黄色片| 久久综合九色综合久久久精品综合 | jiujiure精品视频播放| 欧美日韩在线免费观看视频| 狠久久av成人天堂| 国产成人精品无码播放| 国内精品自线一区二区三区视频| 国产51自产区| 亚洲国产精品ⅴa在线观看| 99精品久久久久| 欧美性xxxxxxxxx| 国产成人在线一区二区| 成人在线观看网站| 久久综合伊人77777尤物| 国产伦子伦对白在线播放观看| 日本精品性网站在线观看| 亚洲成人1区| 久久这里精品国产99丫e6| 久久精品国产大片免费观看| 狠狠精品干练久久久无码中文字幕| 夜夜嗨av一区二区三区网站四季av| 成人3d动漫一区二区三区| 国产一区二区三区四区在线观看| 国产ts丝袜人妖系列视频| 亚洲视频免费观看| 久久久午夜影院| 91精品一区二区三区久久久久久 | 日韩国产精品毛片| 国产日产高清欧美一区二区三区| 向日葵污视频在线观看| 成人高清av在线| 国产又粗又猛又爽又黄的视频小说| 亚洲一级二级三级在线免费观看| 做爰无遮挡三级| 亚洲电影av在线| 久久日韩视频| 日韩av成人在线观看| 久久三级中文| 亚洲bbw性色大片| 国产一区二区三区成人欧美日韩在线观看 | 亚洲欧美变态国产另类| 牛牛在线精品视频| 国产精自产拍久久久久久| 欧美男人操女人视频| 97精品国产97久久久久久粉红| 三级在线观看一区二区| 91视频在线免费| 亚洲日本一区二区| 最近中文字幕av| 亚洲欧美国产日韩天堂区| av电影院在线看| 91青青草免费观看| 99久久久久久中文字幕一区| 亚洲人成无码www久久久| 99国内精品久久| 国产午夜精品一区二区理论影院 | 国产av无码专区亚洲av麻豆| 一区二区三区在线影院| 中文字字幕在线观看| 亚洲色图激情小说| 最新欧美色图| 久久99精品久久久久久秒播放器 | 成人啪啪18免费游戏链接| 日韩久久一区二区| 中文字幕在线网站| 综合网中文字幕| 日本免费一区二区三区等视频| 日本高清不卡一区二区三| 久久高清免费观看| 在线观看福利片| 欧美性高潮在线| 麻豆app在线观看| 日本久久久a级免费| 久久99国产成人小视频| 免费黄色特级片| 欧美韩日一区二区三区| 91 中文字幕| 蜜臀久久99精品久久久无需会员 | 欧美主播一区二区三区美女 久久精品人| 最新亚洲激情| 中文字幕一区二区三区人妻不卡| 黑人巨大精品欧美一区二区免费| 亚洲欧美丝袜中文综合| 2019中文在线观看| 精品日韩一区| 不卡的av中文字幕| 亚洲精品v日韩精品| 精品人妻一区二区三区换脸明星| 欧美俄罗斯性视频| 加勒比色老久久爱综合网| 日韩a在线播放| 国产精品狼人久久影院观看方式| 97人妻精品一区二区三区| 欧美日韩xxx| 一区二区三区日本久久久| 亚洲无吗一区二区三区| 免费黄色在线视频网站| 欧美日本国产在线| 国产精东传媒成人av电影| 亚洲 高清 成人 动漫| 国产婷婷色一区二区三区在线| 中文字幕精品无码亚| 欧美成人精品一区| 亚洲电影男人天堂| 免费成年人高清视频| 一级做a爱片久久| 日韩av成人| 91精品国产综合久久香蕉的用户体验| 综合久久精品| 97伦伦午夜电影理伦片| 欧美剧在线免费观看网站| 91九色在线看| 日韩精品久久一区二区三区| 国内外成人在线| 在线观看国产亚洲| 色婷婷久久av| 欧美巨大xxxx| 中文av字幕在线观看| 天天综合色天天| 免费观看在线午夜影视| 国产一区二区三区无遮挡| 日本aⅴ免费视频一区二区三区| 国产福利视频网站| 亚洲精品小视频在线观看| 国产精品欧美一区二区三区不卡 | a天堂中文字幕| 色94色欧美sute亚洲线路一ni | 亚洲成人www| 日本在线观看视频| 久久精品国产99精品国产亚洲性色|