精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CoT提出者Jason Wei:大模型評估基準的「七宗罪」

人工智能 新聞
Jason Wei 是思維鏈提出者,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。

在 CV 領域,研究者一直把李飛飛等人創建的 ImageNet 奉為模型在下游視覺任務中能力的試金石。

在大模型時代,我們該如何評估 LLM 性能?現階段,研究者已經提出了諸如 MMLU、GSM8K 等一些評估基準,不斷有 LLM 在其上刷新得分。

但這些評估基準真的完美嗎?思維鏈提出者 Jason Wei 在一篇博客中進行了深入的研究。

Jason Wei 首先列舉了幾種成功的評估基準,然后總結了評估基準失敗的常見原因,共七條,包括樣本數量少、評估基準太復雜等等。

進一步的,Jason Wei 認為有些評估工具命名方式并不完美,比如 HumanEval 雖然叫做人類評估,實際上并沒有用到人類進行評估,只是因為問題是由人類創建的。

Jason Wei 表示如果想讓自己創建的評估工具得到廣泛使用,一定要幫助研究者使用它,從而得到推廣。此外,文中還提到了一些針對特定領域的小眾評估工具,Jason Wei 認為這些評估可能不會引起領域之外的任何關注。大家關心的測試集污染問題,Jason Wei 也給出了一些解決方案。

接下來,我們看看 Jason Wei 原博客內容:

成功評估的定義是什么?我想說,如果一個評估基準被用在突破性論文中,并在社區中得到信任,那么它顯然就是成功的。

以下是過去五年中一些成功的評估基準:


  • GLUE/SuperGLUE:LLM 之前基本上所有 NLP 論文(BERT、T5 等)都使用。
  • MMLU:幾乎所有 LLM 論文都使用,也是 DeepMind 和 Google 最喜歡的評估基準。
  • GSM8K:激發了 LLM 的推理能力,并被用于每一篇關于思維鏈(chain-of-thought)的論文中。
  • MATH:大多數 LLM 論文會使用。
  • HumanEval:是 LLM 編碼的經典評估基準。

成功的評估往往會有一篇大論文聲稱使用該評估基準取得了一些突破。例如,GLUE 由 BERT 推廣,MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推廣。思維鏈提示(chain-of-thought prompting)聲稱在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到體現。Codex 等模型使用了 HumanEval。

更深入地說,在評估基準上得到好分數必須意味著一些重要且易于理解的事情,例如實現超越人類的表現、解決小學水平的數學問題。

而大多數不成功的評估基準都至少犯了如下七個錯誤之一:

1、如果評估沒有足夠的樣本,那么對于研究人員來說,它會很嘈雜(noisy),而且 UI 會很糟糕。例如,有人可能在模型訓練過程中運行評估,并發現它在各個檢查點之間波動很大。這使得評估對于研究人員來說非常痛苦,因此他們不會喜歡使用該評估基準。評估基準最好有至少 1000 個樣本供您評估;如果是多項選擇評估,可能需要更多。例如盡管 GPQA 是一個很好的評估基準,但它根據 prompt 而波動的事實使其難以使用。

2、評估基準應該是高質量的。如果評估基準中有很多錯誤,人們就不會相信它,例如 Natural Questions(NQ)基準。

3、如果你的評估基準太復雜,人們會很難理解它,并且會很少使用它。我認為 HELM 的第一個版本是一項巨大的努力,但它有太多的指標和子集。擁有單一數字指標至關重要 —— 我想不出任何偉大的評估基準是沒有單一數字指標的。

4、如果評估需要太多工作來運行,即使其他一切都很好,它也不會有很大的吸引力。BIG-Bench 是我最喜歡的評估基準之一,但運行起來非常痛苦。有對數概率評估和生成評估,這需要不同的基礎設施。子集太多,而且有些子集的樣本太多,所以評估花了很長時間。我相信這就是為什么 BIG-Bench 沒有獲得太多關注,盡管它提供了很多優勢。

5、如果評估不是針對一項有意義的任務,人工智能研究人員不會深度關注它。例如,在 BIG-Bench Hard 中,有推薦電影等任務。這些任務具有挑戰性,并且隨著模型大小的變化性能有所變化,但在這些任務上做得好并不能對模型的智能程度做出實質性的結論。成功的評估通常會衡量對智能至關重要的事物,例如語言理解、考試問題或數學。

6、評估的評分應該非常正確。如果有人認為模型評分不正確或者不認同該評分,那么他們可以立即取消使用該評估基準?;〞r間來盡量減少解析引起的錯誤,或者盡可能獲得最好的自動評分器 prompt 是值得的。

7、為了使評估經得起時間的考驗,性能不能太快飽和。例如,GLUE/SuperGLUE 飽和得太快,很難顯示出巨大的增益,人們就不再使用它們。

對于評估工具,還有不完善的地方

看起來很多優秀的評估工具都有些糟糕的名字。比如 GSM8K 其實并不需要加上 8K,而 HumanEval 雖然叫做人類評估,實際上并沒有用到人類進行評估(之所以叫 HumanEval 是因為問題是由人類創建的)。MATH 這個名字太普通了,所以人們開始稱之為「Hendrycks-math」,這應該算是一個聰明的命名方式,以創建者的名字來命名。 

如果你想讓你的評估工具得到廣泛使用,你首先要做的是幫助人們使用它。例如,當我制定了一個評估工具時,我通常會幫助他人在模型上運行它。如果他們的模型在這個評估上表現良好,那么人們通常會喜歡它并進一步的推廣它。HELM 就非常擅長為其他人評估模型并公布結果。

此外,如果你能為人們使用你的評估工具創造激勵機制也很有幫助。對員工來說,最好的激勵之一就是他們領導所重視的東西。因此,獲得實驗室或公司內部領導的支持對你的評估工具可能會有所幫助,他們會要求底下員工運行它。當我在谷歌創建 MGSM 時,我選擇與 Dipanjan Das(Google Deepmind 的研究主管)合作完成,盡管我們不在同一個團隊。我與他合作純粹是因為他是個有趣的人(并不是為了推廣這個評估工具),但我認為 Dipanjan 很喜歡這個工具,并且在他的團隊中獲得了一些人的支持使用。

然而,LLMs 的出現,對評估工具提出了更高的要求。LLMs 具有大規模多任務處理能力并能生成長回答。目前還沒有一個單一的評估工具能夠充分評估 LLMs。當前流行的評估工具仍然使用非常簡單的評分方式(要么是多項選擇,要么是檢查數字,或者執行單元測試),即便這些方法也存在問題。如果我們能圍繞一個單一的提示,比如零樣本思維鏈(zero-shot chain-of-thought),那會很好。我知道由于很多原因這不是一個完美的解決方案,但我認為為了讓大家統一標準,這是合理的。 

一個新的推動力是人類對模型進行配對評估,比如 LMSYS,但這種評估方式是一把雙刃劍。它們之所以強大, 是因為你可以通過一組簡單的提示得到一個單一的數字指標來衡量一個語言模型的好壞,并且可以通過大量的樣本來平均掉樣本級別的噪聲。不過,成對評估的危險之處在于你并不完全確定你在測量什么 —— 例如,相對于正確性,風格等這類因素的權重影響有多大。 

對模型生成內容(model-generated)的評估也變得有些流行。雖然我傾向于對模型生成的評估比較挑剔,但如果做得好,它們可以用于快速實驗和觀察性能的大幅提升,這是有可能的。但是創建一個經得起時間考驗的偉大的評估需要非常小心,我不想在合成評估中冒任何風險。

一個顯而易見的觀點是,評估的主題決定了有多少人會關心這個評估。你可以創建一個非常高質量的特定領域評估(例如,法律、醫療等),在這些情況下,最重要的是根據該領域專家所重視的內容來定制評估。

我曾經制作過一個組織病理學圖像基準,不出所料,它在醫學圖像分析領域之外幾乎沒有引起任何關注,只獲得了 40 次引用。話雖如此,一旦更多人意識到其重要性,你創建的特定領域評估也有可能獲得更多關注。

評估中一個日益重要的問題是測試集污染。創建了一個好的評估之后,評估的示例往往會傳播到互聯網的各個地方,如 arxiv 論文、ChatGPT 示例或 reddit。解決這個問題的一個方法是對測試集進行「隱藏」,但這種方法引起了很多分歧。斯坦福大學教授 Chris Manning 提出了一個很好的建議,即對公開測試集、私有測試集都進行評估,并監控模型在這兩個測試集上是否有大的偏差。這種方法平衡了在公開測試集上測試的低摩擦性和私密測試集的高可信度。

我注意到的最后一件事是,你關心的評估很大程度上表明了你的身份。一個充滿博士的研究室可能會對語言模型在數學、編碼和物理上的推理能力感興趣。相反,我看到像 LMSYS 這樣的面向用戶的評估被來自軟件或產品背景的工程師視為黃金標準。雖然我兩者都關心,但我個人更傾向于智能,因為我相信智能是 AI 與人類交互的根本驅動力。

社區應該更多地投資于評估,盡管這可能很痛苦,通常不會像建模工作那樣得到很多回報。但歸根結底,好的評估工具是 AI 研究人員對模型的客觀評價指標,并且是對該領域產生重大影響的一種方式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-07 10:11:20

模型AI

2023-05-08 10:54:39

IT管理CIO

2024-06-19 19:28:51

2018-02-05 23:14:35

光纖網絡光纖施工

2011-02-21 09:04:25

2014-01-13 09:35:13

創業企業

2021-03-01 18:48:21

Go管理工具

2013-01-17 17:14:52

Objective-C

2015-09-15 13:22:08

數據分析七宗罪

2013-05-10 10:49:53

2010-08-18 10:05:27

IE7IE6

2011-02-23 10:51:36

Chrome

2015-07-16 09:14:50

數據中心數據中心效率

2019-04-15 09:00:00

SQLOracle數據庫

2016-12-08 13:12:36

數據中心綠色認證

2021-03-03 14:08:48

自動化高管IT投資

2012-04-04 22:15:19

移動游戲

2023-10-17 20:28:13

軟件開發代碼

2012-09-07 14:41:26

2017-01-09 15:25:49

物聯網策略設計
點贊
收藏

51CTO技術棧公眾號

91一区二区视频| 欧美一区二区三区粗大| 蜜芽tv福利在线视频| 日日摸夜夜添夜夜添精品视频| 亚洲色图校园春色| 久草精品在线播放| 日本在线视频观看| 成人国产亚洲欧美成人综合网| 91wwwcom在线观看| 亚洲女人毛茸茸高潮| 欧美在线在线| 粉嫩老牛aⅴ一区二区三区| 日韩伦理一区二区三区av在线| 午夜一区二区三区四区| 自由日本语亚洲人高潮| 亚洲精品国偷自产在线99热 | www.污网站| ririsao久久精品一区| 国产亚洲美州欧州综合国| 91精品在线影院| 制服.丝袜.亚洲.中文.综合懂色| 欧美午夜精彩| 亚洲精品一区二区三区蜜桃下载| 欧美 日韩 国产 激情| 性欧美video高清bbw| 久久精品亚洲精品国产欧美| 亚洲va男人天堂| 日本中文字幕久久| 色综合天天综合网中文字幕| 亚洲精品一区二区三区四区高清| 最近中文字幕一区二区| 99在线视频影院| 成人免费一区二区三区在线观看| 精品一区国产| 国产高清在线观看视频| 日韩黄色免费电影| 97在线观看视频| 日本一级特级毛片视频| 欧美三级伦理在线| 日韩电影大全免费观看2023年上 | 成人mm视频在线观看| 亚洲视频在线一区二区| 欧美日韩系列| 内射无码专区久久亚洲| 国产原创一区二区三区| 国产精品视频区1| 国产九色在线播放九色| 亚洲精品欧洲| 欧美国产日韩xxxxx| 黄色精品视频在线观看| av亚洲免费| 亚洲欧美在线播放| 熟妇高潮精品一区二区三区| 国产精品x8x8一区二区| 日韩欧美高清一区| 老女人性生活视频| 日韩三级一区| 欧美日韩国产中文| 在线观看的毛片| 精品日本视频| 91国在线观看| 亚洲不卡视频在线| 3d欧美精品动漫xxxx无尽| 一区av在线播放| 男女裸体影院高潮| 中文在线字幕免费观看| 亚洲色图欧美激情| 7777在线视频| www.久久久久.com| 亚洲精品福利视频网站| 欧美性受xxxx黑人猛交88| 国产视频在线播放| 亚洲一区影音先锋| 国产婷婷一区二区三区| 国产在线观看www| 欧美日韩中文字幕在线视频| 国产日产欧美视频| 国产一区二区三区影视| 欧美日韩精品欧美日韩精品| 色一情一区二区| 国产一区二区在线观| 欧美视频一二三区| 超碰在线资源站| 亚洲国产视频二区| 亚洲精品国产精品乱码不99按摩 | 精品剧情在线观看| 手机免费看av片| 亚洲资源网站| 最近的2019中文字幕免费一页| а天堂中文在线资源| 午夜片欧美伦| 欧美极品欧美精品欧美视频| 国产污视频在线观看| 性感少妇一区| 国产精品视频1区| 91九色蝌蚪91por成人| 国产成人免费视| 精品国产乱码久久久久久88av| 日韩三级电影网| 日本一区二区三区国色天香| 免费看污污视频| 毛片网站在线看| 欧美小视频在线观看| 91在线视频观看免费| 一区二区三区无毛| 亚洲第一免费网站| 91精品国产自产| 伊人青青综合网| 欧美一区二区色| 国产精品怡红院| 91在线码无精品| 亚洲图片都市激情| 麻豆理论在线观看| 91超碰这里只有精品国产| aaaa黄色片| 91久久夜色精品国产按摩| 久久久久久久av| 中文字幕 国产精品| 国产成人精品亚洲777人妖 | 手机看片一级片| 荡女精品导航| 久久视频免费观看| 国产寡妇亲子伦一区二区三区四区| 久久 天天综合| 麻豆91蜜桃| 大黄网站在线观看| 欧美一区二区三区免费在线看| 男生草女生视频| 欧美日韩一视频区二区| 国产成人黄色av| 黑人乱码一区二区三区av| 国产精品美女久久久久久久网站| 九九爱精品视频| 日本一区二区三区播放| 色妞久久福利网| 丁香六月婷婷综合| 成人av在线看| 青青草视频国产| 久久电影天堂| 在线观看欧美日韩| 久久亚洲精品石原莉奈| av午夜一区麻豆| 国产精品视频二| av在线亚洲一区| 色偷偷偷亚洲综合网另类| www亚洲视频| 成人动漫一区二区三区| 特级西西444| 国产精一区二区| 色午夜这里只有精品| 婷婷激情五月综合| 久久综合九色综合久久久精品综合 | 精品一区二区三区视频在线播放 | 午夜激情综合网| 国产免费a级片| 一区二区三区毛片免费| 91久久久国产精品| 蜜芽在线免费观看| 欧美日韩免费一区二区三区 | 热re99久久精品国产99热| 麻豆视频在线观看免费网站黄| 日韩亚洲欧美高清| 97在线观看免费视频| 日本美女视频一区二区| 日本电影一区二区三区| 国产成人精品亚洲日本在线观看| 亚洲欧美精品伊人久久| 中文字幕一区在线播放| 国产性做久久久久久| 网站一区二区三区| 欧美91精品| 老司机精品福利在线观看| 免费高清视频在线一区| 久久精品视频在线播放| 日韩性xxxx| 欧美主播一区二区三区| 日韩欧美综合视频| 91网站最新网址| 亚洲精品自拍网| 韩日成人av| 午夜欧美性电影| 91蜜桃臀久久一区二区| 日韩av电影在线播放| 国产高清一区二区三区视频| 亚洲成人精品视频在线观看| 成人小视频在线播放| 一区二区三区在线观看网站| 巨胸大乳www视频免费观看| 麻豆精品在线观看| 欧美精品一区二区三区三州| 久久神马影院| 国产欧美丝袜| 台湾天天综合人成在线| 91av在线国产| 亚洲大胆人体大胆做受1| 亚洲乱码国产乱码精品精| 国产精品视频第一页| 精品国产乱码久久久久酒店| 三级av在线免费观看| 91在线免费播放| 人妻巨大乳一二三区| 日韩电影在线免费看| youjizz.com在线观看| 日韩精品久久| 美脚丝袜一区二区三区在线观看| 国产精久久久| 国产精品美女主播| 中文字幕色婷婷在线视频| 欧美日本国产在线| 天堂аⅴ在线地址8| 亚洲欧美日韩中文视频| 欧美一区二区三区成人片在线| 欧美精品1区2区3区| 神马久久久久久久| 五月婷婷综合在线| 欧美被狂躁喷白浆精品| 中文字幕日韩av资源站| 国产在线综合视频| 91日韩精品一区| 日韩aaaaa| 国产69精品久久99不卡| 在线视频一二区| 奇米综合一区二区三区精品视频| 国产69精品久久久久999小说| 中国成人一区| 只有这里有精品| 久久免费av| 亚洲欧美日韩在线综合| 国产精品羞羞答答在线观看| 欧美高清性xxxxhd| 亚洲三级精品| 免费在线观看一区二区| 日韩超碰人人爽人人做人人添| 国产精品视频一区二区三区经| 激情不卡一区二区三区视频在线| 成人免费网站在线观看| 99久久久成人国产精品| 成人伊人精品色xxxx视频| 国产黄色一区| 成人国产亚洲精品a区天堂华泰| 国产伊人久久| 国产啪精品视频网站| 欧美一区=区三区| 国产美女被下药99| 亚洲欧洲一二区| 亚洲mm色国产网站| 亚洲一区网址| 黑人中文字幕一区二区三区| 红杏一区二区三区| 精品久久久久久亚洲| 欧美亚洲色图校园春色| 欧美精品一区二区三区久久| 国产欧美一区二区三区精品观看 | av不卡中文字幕| 成人看片黄a免费看在线| 97人妻精品一区二区三区免费| 成人精品电影在线观看| 91精品小视频| 欧美国产一区二区| 91嫩草丨国产丨精品| 亚洲午夜一区二区三区| 亚洲伊人成人网| 在线视频观看一区| 国产精品一级视频| 亚洲国产精品福利| 黄色小视频在线观看| 中文字幕亚洲欧美日韩2019| 亚洲国产精品精华素| 91a在线视频| 日本午夜免费一区二区| 99久久99久久精品国产片| 丝袜美腿综合| 亚洲欧洲久久| 黄色在线成人| 青青在线免费观看视频| 国产一区二区三区免费看| 手机免费看av片| 亚洲国产高清aⅴ视频| 九九热国产在线| 色婷婷亚洲精品| 国产熟女一区二区三区四区| 亚洲第一av网站| 日本在线播放| 97久久精品国产| 精品国产美女a久久9999| 国产高清一区视频| 久久高清免费| 大陆极品少妇内射aaaaa| 久久精品99久久久| 精品无码在线视频| 亚洲色图视频网| 婷婷激情五月综合| 欧美成人官网二区| 婷婷视频在线| 欧美一区二区三区免费观看| 日本99精品| 日本视频一区在线观看| 激情婷婷亚洲| 韩国一区二区在线播放| 国产亚洲精品aa午夜观看| 亚洲一区二区91| 7777精品伊人久久久大香线蕉的| 日韩av成人| 久久久久久久久国产| 欧美日韩视频免费看| 欧美动漫一区二区| 欧美一区综合| 久久6免费视频| 国产目拍亚洲精品99久久精品| 久久精品视频久久| 在线播放视频一区| av福利在线播放| 日韩av不卡电影| 日本国产精品| 久无码久无码av无码| 国产综合久久久久久久久久久久 | 一区二区三区在线视频播放| 中文在线观看免费高清| 亚洲欧美日韩精品久久亚洲区| 丰满大乳少妇在线观看网站| 91免费看片在线| 色琪琪久久se色| 色婷婷综合网站| 国产色91在线| 黄色大全在线观看| 亚洲美女在线看| 成人免费看黄| 久久伊人一区二区| 亚洲一区久久| 黄瓜视频污在线观看| 欧美性猛交xxxx久久久| 无码精品黑人一区二区三区| 国模视频一区二区三区| 超碰成人福利| 激情小视频网站| 成人av电影在线播放| 久久久精品视频在线| 欧美成人video| 欧美四级在线| 国产精品av一区| 999亚洲国产精| 中文字幕xxx| 欧美日韩国产综合视频在线观看中文| 人妻中文字幕一区| 98视频在线噜噜噜国产| 偷拍自拍亚洲色图| 黑人糟蹋人妻hd中文字幕| 久久婷婷色综合| 中文字幕一区二区三区人妻四季 | 波多视频一区| 热舞福利精品大尺度视频| 喷水一区二区三区| 内射一区二区三区| 欧美变态凌虐bdsm| 岛国av免费在线观看| 久久亚洲国产精品日日av夜夜| 久久亚洲国产精品一区二区| 亚洲第一综合网| 欧美丝袜丝交足nylons| 最新超碰在线| 精品欧美一区二区久久久伦| 美女精品在线| 战狼4完整免费观看在线播放版| 欧美精品一卡二卡| 久久av色综合| 欧美日韩在线高清| 黄色精品一二区| aaa人片在线| 中文字幕av一区| 动漫视频在线一区| 农村妇女精品一二区| 亚洲丝袜制服诱惑| 神马午夜电影一区二区三区在线观看| 热99在线视频| 51精产品一区一区三区| 欧美一区二区免费在线观看| 色欧美乱欧美15图片| 国产一二三区在线观看| 狠狠综合久久av| 久久精品国产精品青草| 精品一区二区三区人妻| 亚洲全黄一级网站| 精品三级国产| 不卡av免费在线| 亚洲成a人片综合在线| 国产高清视频在线| 成人情视频高清免费观看电影| 久久婷婷丁香| 麻豆亚洲av成人无码久久精品| 国产午夜精品理论片a级探花| 日日夜夜亚洲| 国产免费成人在线| 亚洲精品精品亚洲| 91在线视频免费看| 精品视频一区二区| 国产乱理伦片在线观看夜一区| 国产女主播喷水视频在线观看| 超碰日本道色综合久久综合 | 中文字幕九色91在线| 成人性生交大片免费看96|