精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

給大模型評分的基準靠譜嗎?Anthropic來了次大評估

人工智能 新聞
在大模型(LLM)盛行的當下,評估 AI 系統成為了重要的一環,在評估過程中都會遇到哪些困難,Anthropic 的一篇文章為我們揭開了答案。

現階段,大多數圍繞人工智能 (AI)對社會影響的討論可歸結為 AI 系統的某些屬性,例如真實性、公平性、濫用的可能性等。但現在面臨的問題是,許多研究人員并沒有完全意識到建立穩健可靠的模型評估是多么困難。當今許多現有的評估套件在各個方面的表現都很有限。

AI 初創公司 Anthropic 近日在其官方網站上貼出了一篇文章《評估 AI 系統所面臨的挑戰》。文中寫道,他們花了很長的時間來構建對 AI 系統的評估,從而更好地理解 AI 系統。

圖片

文章地址:https://www.anthropic.com/index/evaluating-ai-systems

本文主要從以下幾個方面展開討論:

  • 多項選擇評估(Multiple choice evaluations);
  • 利用第三方評估框架,如 BIG-bench 和 HELM;
  • 讓工作人員來衡量模型是有益的還是有害的;
  • 讓領域專家對相關威脅進行紅隊分析(red team);
  • 使用生成式 AI 來開發評估方法;
  • 與非營利組織合作,審核模型是否具有危害。

多項選擇評估面臨的挑戰

多項選擇評估看似簡單,其實不然。本文討論了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基準上的挑戰。

MMLU 數據集

MMLU 是一個包含 57 個多選問答任務的英文評測數據集,涵蓋數學、歷史、法律等,是目前主流的 LLM 評測數據集。準確率越高,意味著模型的能力越強。但本文發現使用 MMLU 存在四個挑戰:

1. 由于 MMLU 被廣泛使用,因而就不可避免的遇到這種情況,模型在訓練過程中更容易將 MMLU 數據納入進來。這和學生在考試前看到題目是一樣的 —— 這是作弊。

2. 對簡單的格式變化敏感,例如將選項從 (A) 更改為 (1),或者在選項和答案之間添加額外的空格,這些做法都可能導致評估準確率約有 5% 的浮動。

3. 一些開發人員有針對性的來提高 MMLU 分數,例如少樣本學習或思維鏈推理。因此,在比較各個實驗室的 MMLU 分數時必須非常小心。

4.MMLU 可能沒有經過仔細的校對 —— 有研究者在 MMLU 中發現了標簽錯誤或無法回答的例子。

由于上述問題,因而在進行這種簡單且標準化的評估時,有必要事先做出判斷和思考。本文表明,在使用 MMLU 中遇到的挑戰通常也適用于其他類似的多項選擇評估。

BBQ

多項選擇評估還可以衡量一些 AI 危害。具體而言,Anthropic 的研究者為了在自家模型 Claude 中衡量這些危害,他們使用了 BBQ 基準(用于評估模型對人群偏見的常用基準)。在將此基準與幾個類似的評估進行比較后,本文才確信 BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。

本文表示,實施 BBQ 比預期要困難得多。首先是找不到一個可用的 BBQ 開源實現,Anthropic 最好的工程師花了一個星期的時間來執行和測試評估。與 MMLU 中按照準確率評估不同,BBQ 中的 bias 得分需要細微差別和經驗來定義、計算和解釋。

BBQ bias 得分范圍從 - 1 到 1,其中 1 表示有明顯的刻板偏見,0 表示沒有偏見,-1 表示有明顯的反刻板偏見。在實現 BBQ 之后,本文發現一些模型 bias 得分為 0,這一結果也讓研究者感到樂觀,表明他們在減少有偏見的模型輸出方面取得了進展。

第三方評估框架

最近,第三方一直在積極開發評估套件。到目前為止,Anthropic 已經參與了其中的兩個項目:BIG-bench 和斯坦福大學的 HELM(Holistic Evaluation of Language Models)。盡管第三方評估看起來很有用,但這兩個項目都面臨新的挑戰。

BIG-bench

BIG-bench 包含 204 項評估,由 450 多名研究者合作完成,涵蓋從科學到社會推理的一系列主題。Anthropic 表示他們在使用這個基準時遇到了一些挑戰:為了安裝 BIG-bench,他們耗費了大量的時間。BIG-bench 不像 MMLU 那樣即插即用 —— 它甚至比使用 BBQ 更多的努力來實施。

BIG-bench 無法有效的擴展,想要全部完成 204 項評估具有很大的挑戰性。因而需要重新編寫,以便與使用的基礎設施很好地配合,工作量巨大。

此外,在實施過程中,本文發現評估中存在一些 bug,使用起來非常不便利,因此 Anthropic 的研究人員在這次實驗后放棄了它。

HELM:自上而下地策劃一組評估

BIG-bench 是一項「自下而上」的工作,任何人都可以提交任何任務,然后由一組專家組織者進行有限的審查。而 HELM 則采用「自上而下」的方法,由專家決定用什么任務評估模型。 

具體來說,HELM 在推理場景、含虛假信息場景等多個場景中評估模型,采用準確性、穩健性、公平性等標準指標。Anthropic 為 HELM 開發人員提供 API 訪問權限,以便在其模型上運行基準測試。

相比于 BIG-bench,HELM 有兩個優勢:1)它不需要進行大量的工程工作,2)可以依靠專家來選擇和解釋特定的高質量評估。

然而,HELM 也帶來了一些挑戰。適用于評估其他模型的方法不一定適用于 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型經過訓練,遵循特定的文本格式,稱為 Human/Assistant 格式。Anthropic 內部評估其模型時會遵循這種特定格式。如果不遵循這種格式,Claude 有時就會給出不尋常的回答,從而使標準評估指標的結果不太可信。

此外,HELM 需要很長的時間才能完成,評估新模型可能需要幾個月的時間,并且需要與外部各方進行協調和溝通。

人工智能系統是為了與人進行開放式動態交互而設計的,那么如何對模型進行更接近現實應用的評估?

眾包人員進行 A/B 測試

目前,領域內主要(但不完全)依賴一種基本類型的人類評估 —— 在眾包平臺上進行 A/B 測試,人們在其中與兩個模型進行開放式對話,并從模型 A 或 B 中選擇響應更有幫助或更無害,根據模型的有用性或無害性對模型進行排名。這種評估方法的優點是與現實環境相對應,并允許對不同的模型進行排名。

然而,這種評估方法有一些局限性,實驗運行起來既昂貴又耗時。

首先,這種方法需要與第三方眾包平臺合作并為其付費,為模型構建自定義 Web 界面,為 A/B 測試人員設計詳細的說明,還要分析和存儲結果數據,并解決雇用眾包人員帶來的道德挑戰。

在無害性測試情況下,實驗還存在使人們接觸有害輸出的風險。人類評估的結果可能還會因人類評估者的特征存在很大差異,包括人類評估者的創造力水平、動機以及識別所測試系統潛在缺陷的能力。

此外,有用和無害之間存在固有的張力。系統可以通過提供無用的響應(例如「抱歉,我無法幫助您」)來降低有害性。

有用與無害之間的正確平衡是什么?什么指標數值表明模型足夠有用且無害?諸多問題需要領域內研究者做更多工作來找到答案。

了解更多內容,請參考原文章。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-25 13:10:54

大模型文心大模型百度

2020-11-09 09:28:49

WiFi 7WIFI6網絡

2025-01-10 10:30:00

大模型統計評估

2025-10-15 14:02:29

AI模型自動駕駛

2024-10-22 14:20:00

AI模型

2017-04-18 20:09:14

數據分析電影評分

2024-04-11 14:12:53

2019-03-21 12:10:56

騰訊管理年輕化

2014-02-11 09:25:09

2019-04-29 10:38:13

程序員AI輔助編程

2015-12-29 10:10:04

私有云虛擬化公共云

2012-10-22 11:14:05

SDNOpenFlow網絡管理

2023-05-08 15:36:50

模型AI

2013-12-30 16:22:40

Windows 9概念設計

2016-11-22 17:26:11

開源PowerShellLinux

2015-07-31 10:16:17

2021-01-12 14:24:26

Python開發大數據

2020-02-10 17:55:32

疫情模型靠譜

2024-05-27 12:45:53

2014-12-30 10:20:24

飛機WiFi
點贊
收藏

51CTO技術棧公眾號

久久久久无码国产精品一区李宗瑞| 日本福利一区二区三区| 少妇人妻丰满做爰xxx| 精品国产欧美| 精品久久久在线观看| 热舞福利精品大尺度视频| 一级黄色大片网站| 亚洲欧洲午夜| 揄拍成人国产精品视频| 欧美大片久久久| 超级白嫩亚洲国产第一| 国产女主播视频一区二区| 亚洲a级在线观看| 欧美一级片免费在线观看| jiujiure精品视频播放| 日韩精品一区二区三区视频| 日韩中文字幕二区| 18av在线视频| 国产亚洲一二三区| 古典武侠综合av第一页| 久久久久99精品成人片三人毛片| 成人在线电影在线观看视频| 精品久久久久久久久久久久包黑料| 欧美视频第三页| 国产精品蜜臀| 亚洲视频一二三区| 日本视频一区在线观看| 亚洲成人一二三区| 精油按摩中文字幕久久| 欧美一区二区三区艳史| 国产一级片播放| 欧美好骚综合网| 亚洲性线免费观看视频成熟| 性一交一黄一片| 欧美成人aaa| 色综合久久久久综合体桃花网| 国产精品久久久影院| se在线电影| 久久综合久久鬼色中文字| 91久久久一线二线三线品牌| 999视频在线| 亚洲在线电影| 97在线日本国产| 久久中文字幕无码| 欧美三级不卡| 欧美精品在线第一页| 黄色国产在线播放| 国产探花在线精品| 国产视频丨精品|在线观看| 国产精品一区二区无码对白| 疯狂欧洲av久久成人av电影| 欧美日韩一区二区三区四区| 欧美黑人又粗又大又爽免费| 国产精品原创| 精品久久久久久久大神国产| 男人天堂a在线| 新版中文在线官网| 亚洲一区二区五区| av女优在线播放| 国产乱码在线| 欧美日韩午夜激情| 国产最新免费视频| 欧美magnet| 欧美色倩网站大全免费| 亚洲福利精品视频| 日韩久久一区| 7777女厕盗摄久久久| www.成人黄色| 欧美经典一区| 精品国产网站在线观看| www.17c.com喷水少妇| 林ゆな中文字幕一区二区| 日韩精品在线免费| 久久亚洲AV无码专区成人国产| 欧美美乳视频| 爽爽爽爽爽爽爽成人免费观看| 粉嫩精品久久99综合一区| 日韩在线观看一区| 欧美精品在线看| 日韩福利片在线观看| 亚洲男女自偷自拍| 国产精品成人一区二区三区吃奶| 中日精品一色哟哟| 国产精品一卡二| 国产成人av一区二区三区| 天天操天天干天天爱| 99久久99久久精品免费观看| 奇米视频888战线精品播放| av网站在线播放| 一区二区三区不卡在线观看| 免费看日本毛片| 国产精品久久亚洲不卡| 欧美一区二区三区在线| 日韩少妇一区二区| 日本一本不卡| 欧美日韩成人在线视频| 9i精品福利一区二区三区| 久久99久久久久久久久久久| 成人av播放| 丁香婷婷在线观看| 一区二区三区在线视频免费 | 日韩午夜电影| 国产欧美日韩丝袜精品一区| 可以免费看毛片的网站| 国产欧美精品在线观看| 天堂а√在线中文在线| **在线精品| 欧美变态凌虐bdsm| 欧美另类69xxxx| 99在线|亚洲一区二区| 国产女同一区二区| 日韩av成人| 亚洲黄色性网站| 三级a在线观看| 精品国产导航| 久久婷婷国产麻豆91天堂| youjizz在线视频| 国产成人超碰人人澡人人澡| 色姑娘综合网| 中文在线аv在线| 欧美大片一区二区三区| 国产一二三四区在线| 极品中文字幕一区| 91九色蝌蚪成人| 麻豆电影在线播放| 欧美这里有精品| www.久久国产| 一本色道久久综合亚洲精品不卡 | 欧美在线视频导航| 狠狠躁日日躁夜夜躁av| 亚洲天天做日日做天天谢日日欢 | 国产iv一区二区三区| 亚洲精品9999| 欧美不卡高清一区二区三区| 亚洲国产天堂网精品网站| 强行糟蹋人妻hd中文| 毛片一区二区三区| 亚洲精品无人区| 日本成人三级电影| 亚洲精品综合久久中文字幕| 日本一二三区不卡| 成年人网站91| 久久成人福利视频| 96sao在线精品免费视频| 麻豆成人在线看| 国产区精品在线| 亚洲视频香蕉人妖| 在线观看视频在线观看| 91精品啪在线观看国产81旧版| 国产精品色午夜在线观看| 国产精品毛片一区二区三区四区| 狠狠综合久久av一区二区小说| 亚洲男女在线观看| 一区二区久久| 欧美日韩在线一二三| 345成人影院| 亚洲男人7777| 中文字幕一区二区人妻| 国产精品美女久久久久高潮| 视频在线观看免费高清| 91精品蜜臀一区二区三区在线| 成人有码在线播放| 羞羞的视频在线看| 亚洲黄色片网站| 国产无套丰满白嫩对白| 国产日韩欧美在线一区| 少妇一级淫免费放| 99久久www免费| 666精品在线| 激情黄产视频在线免费观看| 亚洲女人被黑人巨大进入al| 无码人妻丰满熟妇精品区| 欧美国产日产图区| 手机免费看av网站| 亚洲午夜一级| 九九九久久久| 精品福利在线| 九九热精品在线| 熟妇高潮一区二区三区| 欧美综合一区二区三区| 日本一级特级毛片视频| 成人午夜在线免费| 国产xxxxx视频| 欧美一区二区三区久久精品| 国产综合色一区二区三区| 国模视频一区| 久久久噜噜噜久久中文字免| 福利在线视频导航| 欧美成人三级电影在线| 久久久久久久久久成人| 亚洲美女屁股眼交3| 中文字幕狠狠干| 国产麻豆精品theporn| 日韩少妇内射免费播放18禁裸乳| 日韩欧美综合| 久久精品日产第一区二区三区| 欧美激情不卡| 秋霞成人午夜鲁丝一区二区三区| 久久99精品久久久久久野外| 亚洲精品v欧美精品v日韩精品| 在线播放国产一区| 精品欧美一区二区三区| 日本一二三区在线观看| 91麻豆免费看片| 免费啪视频在线观看| 美国毛片一区二区| 国产美女无遮挡网站| 欧美午夜不卡| 亚洲一区二区三区免费观看| 日韩激情毛片| 国产精品一区二区不卡视频| 外国成人毛片| 国产精品自产拍在线观看中文| 91美女主播在线视频| 日韩中文字幕精品视频| 四虎影视精品成人| 7777精品伊人久久久大香线蕉经典版下载 | 黄页免费在线观看视频| 欧洲福利电影| 国产精品高清一区二区三区| 视频91a欧美| 日韩免费视频在线观看| 国内老司机av在线| 中文字幕精品国产| 国产系列在线观看| 亚洲国产免费av| 精品人妻无码一区二区三区蜜桃一| 欧美性色黄大片| 国产69精品久久久久久久久久| 亚洲色图19p| 日韩一区二区a片免费观看| av高清不卡在线| 在线观看一区二区三区视频| 久久精品国产一区二区| 嫩草影院国产精品| 国产亚洲网站| xxxx18hd亚洲hd捆绑| 亚洲精品国产偷自在线观看| 色乱码一区二区三区熟女| 国产一区二区精品福利地址| 国产精品久久久久久久免费大片 | 国产日韩精品一区二区| 一区二区视频免费完整版观看| 久久久最新网址| av片在线观看永久免费| 国产婷婷色综合av蜜臀av| 水莓100国产免费av在线播放| 日韩午夜在线观看视频| 97超碰资源站| 欧美一级黄色片| 国产精品久久久久久免费| 欧美日韩精品系列| 亚洲精品无码久久久久| 国产无码精品在线播放| 亚洲精品ww久久久久久p站| a一级免费视频| 亚洲欧美一区二区视频| 国产精品一区二区亚洲| 国产精品欧美久久久久无广告| 国产精品九九视频| 久久久综合视频| 久久精品成人av| 久久久久久99久久久精品网站| 久久丫精品忘忧草西安产品| 久久中文字幕电影| 免费黄色片网站| 91丨porny丨国产入口| 成人黄色a级片| 国产精品久久综合| 黑鬼狂亚洲人videos| 樱花影视一区二区| 精品在线视频观看| 午夜不卡在线视频| 中文字幕第31页| 69av一区二区三区| 成人av免费播放| 亚洲美女动态图120秒| 久草在线免费福利资源| 一夜七次郎国产精品亚洲| 91在线免费看| 欧美激情国内偷拍| 在线能看的av网址| 国产精品视频一| av自拍一区| 乱一区二区三区在线播放| 久久91精品| 国产真实老熟女无套内射| 亚洲另类视频| 天天干天天爽天天射| 成人午夜视频在线| 人人妻人人藻人人爽欧美一区| 国产区在线观看成人精品| 欧美黄色aaa| 欧美日韩色婷婷| 中文字幕人成人乱码亚洲电影| 91黄视频在线观看| 成人精品在线播放| 永久免费看mv网站入口亚洲| 看黄网站在线| 国产成人综合一区二区三区| 青青伊人久久| 国产丝袜不卡| 亚洲有吗中文字幕| 激情五月开心婷婷| 国产一区二区三区免费播放| 亚洲成人日韩在线| 成人免费小视频| xxxx.国产| 91精品国产一区二区人妖| 天天操天天操天天操| 欧美裸体xxxx极品少妇| sis001欧美| 99精品欧美一区二区三区| 久久精品国产www456c0m| 成人免费视频91| 久久99国产精品久久99果冻传媒| 亚洲AV无码国产精品| 日韩美女视频一区| 国产精品久久久久久久久久久久久久久久久| 91麻豆精品国产91久久久久| 天天干天天插天天操| 精品国产一区二区三区在线观看| 电影k8一区二区三区久久 | 五月天国产一区| 夜夜嗨一区二区| 手机在线免费毛片| 国产精品婷婷午夜在线观看| 一级成人黄色片| 亚洲风情亚aⅴ在线发布| 国产区在线看| 成人午夜小视频| 成人羞羞视频在线看网址| 激情深爱综合网| 成人av网站在线| 免费三片在线播放| 91精品黄色片免费大全| 91.xxx.高清在线| 国产精品久久久久久一区二区| 成人免费在线电影网| 国产精品视频网站在线观看| 麻豆91在线观看| 欧美黄色一级生活片| 色综合久久天天| 无码精品黑人一区二区三区| 九九热精品视频在线播放| 99精品在免费线中文字幕网站一区| 一区二区av| 日韩精品午夜视频| 欧美激情视频二区| 在线亚洲+欧美+日本专区| 国产资源在线播放| 国产99久久精品一区二区永久免费 | 欧美激情综合亚洲一二区| 国产亚洲高清一区| 懂色av粉嫩av蜜臀av| 国产一区二区三区久久久| 人与动物性xxxx| 欧美日韩午夜在线| 成人欧美在线| 99r国产精品视频| 99久久婷婷这里只有精品| 伊人成人免费视频| 一级日本不卡的影视| 天堂成人在线| 奇门遁甲1982国语版免费观看高清| 粉嫩的18在线观看极品精品| 国产一区二区网| 久久网站热最新地址| 无码人妻丰满熟妇精品| 久久精品在线视频| 国产午夜精品一区在线观看| 在线成人性视频| 丁香桃色午夜亚洲一区二区三区| 久久久精品99| 国产亚洲精品久久久| 成人在线免费av| 久久免费看毛片| eeuss鲁片一区二区三区在线观看| 国产无遮挡aaa片爽爽| 日韩成人av一区| 国产三级一区| 丰满人妻一区二区三区53号| 成人av网址在线| 国产免费a视频| 久久亚洲精品国产亚洲老地址| 久久亚洲道色| 日韩有码免费视频| 国产精品全国免费观看高清| 亚洲国产精品久久人人爱潘金莲| 777午夜精品福利在线观看| 久久精品国产99久久| 深夜视频在线观看| 色婷婷亚洲综合| 日本乱理伦在线| 日本精品二区| av在线综合网| 中文字幕欧美在线观看| 久久久久久中文字幕| 999久久久精品国产| 美女扒开腿免费视频|