精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

動態基準測試Dynabench已發布,Facebook想用人類來「審問」人工智能

新聞 人工智能
Facebook已經建立并正在共享Dynabench,這是第一個用于人工智能領域的動態數據收集和基準測試平臺。

 Facebook已經建立并正在共享Dynabench,這是第一個用于人工智能領域的動態數據收集和基準測試平臺。它使用人類測試和模型一起循環迭代,目的是為了創造具有挑戰性的新數據并且更優化的人工智能模型。

[[345339]]

人工智能在過去十年左右的巨大成功通常歸功于大量的數據和計算能力,但是「基準測試」在推動進步方面也發揮著至關重要的作用。

為了提高SOTA結果,研究人員需要一種方法來比較他們的模型與同行開發的模型的效果差異。準確的比較是驗證新模型確實優于該領域現有模型的先決條件這個過程被稱為「基準測試」,即Benchmark。

研究人員可以利用人工智能進行對比測試,看看它到底有多先進。例如,ImageNet,一個由1400萬張圖像組成的公共數據集,為圖像識別設定了目標。MNIST 在自然語言處理方面對手寫數字識別和 GLUE (通用語言理解評估)做了同樣的工作,導致了諸如 GPT-3這樣的突破性語言模型的出現。

基準測試已經越來越快地達到飽和,尤其是在自然語言處理(NLP)領域。雖然研究團隊花了大約18年時間才在 MNIST 上取得了人類水平的表現,并在 ImageNet 上花了大約6年時間才超過人類,但在 GLUE 語言理解基準上只花了大約一年時間就超過了人類。

固定的目標很快就會被超越。ImageNet 在更新中,GLUE 也已經被 SuperGLUE 取代,后者是一系列更困難的語言任務。

盡管如此,研究人員遲早會報告說,他們的人工智能已經達到了超越人類的水平,在這個或那個挑戰中勝過人類。如果我們希望「基準」繼續推動算法和模型進步,這就是一個亟待解決的問題。

Dynabench:新的動態對抗性benchmark

Facebook 正在發布一種新的測試方法,讓人工智能與竭盡全力干擾它們的人類進行比較,希望輔助研究人員開發出更強大的NLP模型。這項測試基準名為「 Dynabench」,它將根據人們的選擇來進行變化,解決目前基準測試方法的不足,并促進更健壯的人工智能軟件的開發。

[[345340]]

Dynabench的解決方案是通過將人工測試帶入這個流程來部分地實現基準測試過程。這個想法就是基于人類可以更準確地評估一個模型的準確性,而不是一組預先包裝好的測試問題,可以為神經網絡提出更難,更有創造性的挑戰。

這是一個比當前靜態基準更好的模型測量指標,將更好地反映人工智能模型在最重要的情況下的表現: 當與人交流時,他們的行為和反應都是復雜的,不斷變化的方式,而這些方式無法在一組固定的數據點中反映出來。

「現有的Benchmarks可能非常具有誤導性」,Facebook 人工智能研究所的 Douwe Kiela 說,他領導了這個工具的開發團隊,「過分關注基準可能意味著忽視更廣泛的目標」,從而導致「the test become the task」

靜態基準測試-忽略了與人交互的體驗

靜態的基準測試迫使模型過多地關注一個特定的東西,而我們最終關心的不是某個特定的度量或任務,而是人工智能系統在與人交互時能做到多好。

人工智能的真正衡量標準不應該是準確度或困惑度,而應該是直接或者間接建立與人交流時的模型誤差率。

Kiela認為這是NLP目前面臨的一個特殊問題。GPT-3這樣的語言模型之所以具有智能性,是因為它非常擅長模仿語言,但是很難說這些系統到底能理解多少。

就像做智力測試一樣,可以給人們做智商測試,但是這并不能告訴你他們是否真的掌握了一個主題。為了做到這一點,你需要和他們進行交談,問問題。

就像一個學生只記住了一大堆事實,這種策略也許在筆試中可以取得優異的成績,但是在面試中提出的創造性和意料之外的問題,這種策略就不那么有效了。

Dynabench 做了類似的事情,「用人來審問人工智能」。

Facebook也已經發布了一個網頁,邀請感興趣的人去網站來測試背后它的模型。例如,你可以給語言模型一個 Wikipedia 頁面,然后問它問題,給它的答案打分。

在某些方面,這個想法類似于人們已經在使用GPT-3的方式,來測試它的極限。或者是聊天機器人評估 Loebner Prize的方式,又或者是類似圖靈測試的方式。

當人工智能完成一輪測試后,Dynabench 識別出那些愚弄模型的問題,并將它們編譯成一個新的測試集。

研究人員可以利用這個測試集來幫助他們建立更新、更復雜的模型。然后,一旦開發出一個模型,就可以回答第一個人工智能無法回答的問題,Dynabench不斷重復這個過程,并編譯另一個測試數據集與更難的問題。

目前 Dynabench 將專注于語言模型,因為它是人類最容易理解的AI模型之一。「每個人都會說一種語言」,Kiela說,「你不需要任何關于如何妨礙這些模型的真正知識。」

該方法也適用于其他類型的神經網絡,如語音或圖像識別系統。Kiela 說,你只需要找到一種方法,讓人們上傳自己的圖片,或者讓他們畫些東西來測試它。Facebook的長期的愿景是開放Dynabench,這樣任何人都可以開發自己的模型,收集自己的數據。

Facebook希望讓AI界相信,會有一種更好的方法來測試NLP模型,這會使得模型和算法能夠更快的進步,并且真正的提升與人類交互時的體驗和真正的理解交互內容。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-06-20 11:05:58

通用人工智能機器人

2021-03-19 10:22:03

人工智能

2021-03-31 12:23:27

智用研究院伙伴計劃

2022-07-25 14:10:07

人工智能金融語言

2022-07-04 23:29:56

人工智能語言模型數據

2022-02-15 13:14:37

人工智能神經網絡

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2020-06-17 16:08:33

人工智能

2022-07-04 15:29:59

人工智能機器計算機

2020-03-25 09:53:33

人工智能AI技術

2018-07-02 10:48:20

2017-05-10 11:30:28

人工智能

2022-07-31 23:46:57

人工智能語言模型感知力

2021-07-28 13:29:44

人工智能指令技術

2021-02-25 10:23:01

人工智能科技機器學習

2024-03-14 08:00:00

人工智能生成式對抗網絡網絡釣魚

2021-04-16 11:28:26

人工智能人工智能工程AI

2024-03-20 06:50:08

2020-07-24 08:20:07

人工智能遠程辦公技術
點贊
收藏

51CTO技術棧公眾號

色一情一乱一伦| 超碰91在线播放| 成人亚洲综合天堂| 日韩不卡免费视频| 久久中文字幕国产| 精品一区二区三区四区五区六区| 欧美国产激情18| 日韩资源av在线| 国产又爽又黄又嫩又猛又粗| 亚洲天堂久久| 在线视频亚洲欧美| 久草免费资源站| 亚洲欧美在线成人| 一区二区三区四区亚洲| 欧美二区三区在线| www.日韩高清| 日韩在线观看一区二区| 欧美高清第一页| 亚洲av熟女国产一区二区性色| 操人在线观看| 国产精品成人免费在线| 国产丝袜不卡| 国产一区二区在线视频聊天| 精品999成人| 日韩中文字幕在线看| 亚洲国产果冻传媒av在线观看| 密臀av在线| 国产精品色哟哟网站| 久久久久久精| 亚洲精品无amm毛片| 日韩激情一区二区| 欧美一级视频在线观看| 久久国产精品二区| 99re久久最新地址获取| 日韩精品在线观看网站| 免费观看黄网站| 久久不卡日韩美女| 色欧美88888久久久久久影院| 欧美日韩在线高清| 免费国产精品视频| 国产精品夜夜爽| 成人羞羞国产免费| 一区二区小视频| 日日夜夜免费精品| 欧洲精品毛片网站| 黄色大片网站在线观看| 黄色亚洲免费| 欧美黄色片免费观看| 老司机成人免费视频| 国产色无码精品视频国产| 男人添女人下部高潮视频在线观看 | 国产又粗又长又黄的视频| 乱亲女h秽乱长久久久| 精品美女一区二区| 天堂av.com| 99久久99九九99九九九| 欧美日韩国产首页| 国产又黄又猛的视频| 四虎国产精品免费久久5151| 欧美午夜精品久久久久久孕妇| 亚洲一区 在线播放| 欧美三级理伦电影| 亚洲人妖av一区二区| 韩国黄色一级大片| 在线观看电影av| 亚洲一卡二卡三卡四卡五卡| 福利视频一二区| 国产无遮挡裸体视频在线观看| 国产亚洲欧洲一区高清在线观看| 成人免费大片黄在线播放| 亚洲无码精品在线播放| 国精产品一区一区三区mba视频 | 精品一区二区三区视频在线观看| 国模极品一区二区三区| 五月婷婷激情网| 中日韩男男gay无套| 日韩免费视频在线观看| 国产精品无码一区| 国产在线精品一区二区三区不卡| 国产成+人+综合+亚洲欧美丁香花| 国产日产在线观看| 欧美激情 亚洲a∨综合| 韩国视频理论视频久久| 综合网在线观看| 男女男精品网站| 亚洲a在线播放| 天天干天天色天天| 久久精品日韩一区二区三区| 在线视频不卡一区二区| 五月婷婷视频在线观看| 欧美性jizz18性欧美| 国产精品天天av精麻传媒| 国产精品3区| 亚洲精品wwwww| 免费黄色国产视频| 一区在线视频| 国产精品久久久999| 国产99久久九九精品无码免费| 久久精品99国产精品日本| 999视频在线免费观看| 日本高清视频网站| 中文子幕无线码一区tr| 国产乱淫av片杨贵妃| 欧美不卡高清一区二区三区| 日韩免费看网站| 国产精品毛片一区二区| 欧美69wwwcom| 国产精品露脸av在线| 丰满人妻妇伦又伦精品国产| 国产欧美日韩视频一区二区| 久久久久久久久久久综合| 日韩三区免费| 亚洲精品福利在线| 男人与禽猛交狂配| 日本在线不卡视频| 国产日韩精品久久| 黄色网页在线免费看| 色综合激情久久| 97中文字幕在线观看| 日韩中文首页| 日本亚洲精品在线观看| 亚洲精品国产片| 综合网在线视频| 日韩av手机版| 自拍自偷一区二区三区| 久久久久久高潮国产精品视| 一级特黄aaa大片| 久久精品亚洲一区二区三区浴池| 亚洲一区bb| 成人勉费视频| 日韩av在线免费观看| 男女性高潮免费网站| 美女性感视频久久| 日本亚洲欧洲精品| 女人让男人操自己视频在线观看| 日本韩国一区二区三区| 国产又粗又长又爽| 黄色av成人| 97久久人人超碰caoprom欧美| 黄色a在线观看| 有码一区二区三区| 亚洲综合在线一区二区| 91日韩免费| 国产在线精品一区免费香蕉| 视频免费一区| 欧美日韩国产小视频| 在线观看免费黄色网址| 日本欧美一区二区在线观看| 日本日本精品二区免费| 成人涩涩视频| 神马久久桃色视频| 中文字幕在线视频第一页| 欧美激情一区二区| 午夜免费福利视频在线观看| 欧美一区二区麻豆红桃视频| 国产成人精品久久二区二区91| 99久久国产热无码精品免费| 日韩久久一区二区| 国产黄色一区二区三区| 女人色偷偷aa久久天堂| 91久久久一线二线三线品牌| 人妖欧美1区| 欧美精品一区二区三区高清aⅴ| 蜜桃久久精品成人无码av| 久久一区中文字幕| 日本不卡二区| 久久久久伊人| 欧美大码xxxx| 天堂中文在线资源| 欧美日韩一区二区在线播放| 欧美成人国产精品一区二区| 玖玖在线精品| 在线视频不卡国产| 福利电影一区| 日本免费久久高清视频| a天堂中文在线| 91精品在线免费| 国产亚洲自拍av| xfplay精品久久| 在线看的黄色网址| 国产综合激情| 欧美高清视频一区二区三区在线观看| 2024最新电影免费在线观看| 精品免费一区二区三区| 欧美男人亚洲天堂| 1区2区3区欧美| 丰满岳乱妇一区二区| 老妇喷水一区二区三区| 黄色免费高清视频| 女同另类激情重口| 国产噜噜噜噜噜久久久久久久久| 日本不卡免费播放| 欧美久久免费观看| 日本网站免费观看| 中文字幕欧美三区| 国模无码视频一区| 蜜桃精品视频在线| 久久亚洲中文字幕无码| 精品久久网站| 国产富婆一区二区三区| 草民电影神马电影一区二区| 欧美国产日韩一区二区在线观看| 国产欧美久久久| 欧美视频在线观看 亚洲欧| 亚洲一级黄色录像| 不卡大黄网站免费看| gogogo高清免费观看在线视频| 日韩一区亚洲二区| 国产一区二区在线观看免费播放| 久操视频在线观看| 欧美片网站yy| 精品人妻无码一区二区性色| 国产精品久久久久aaaa樱花| 特级西西人体4444xxxx| 激情欧美一区二区三区在线观看| 中文字幕欧美日韩一区二区| 欧美理论电影在线精品| 亚洲自拍偷拍网址| 亚洲天堂1区| 992tv成人免费视频| 大片免费在线观看| 夜夜嗨av一区二区三区四区| 三级小视频在线观看| 91精品国产色综合久久不卡电影 | japan高清日本乱xxxxx| 亚洲精选成人| 日本免费成人网| 国产精品久久占久久| 茄子视频成人在线观看 | 国产亚洲精品熟女国产成人| 成人网页在线观看| 国产乱叫456| 久久精品国产一区二区| 男女视频一区二区三区| 国产亚洲一区在线| 久草视频国产在线| 欧美日韩一区二区高清| 中文字幕第一页亚洲| 欧美疯狂party性派对| 日韩尤物视频| 欧美日韩国产高清电影| 蜜桃网站成人| 日韩欧美影院| 精品一区二区日本| 日韩影视高清在线观看| 精品免费国产| 午夜精品影视国产一区在线麻豆| 国产精品免费一区| 香蕉视频亚洲一级| 日韩美女福利视频| 欧美特黄aaaaaaaa大片| 国产a∨精品一区二区三区不卡| 老司机在线看片网av| 色青青草原桃花久久综合| av小片在线| 色老头一区二区三区在线观看| 亚洲第一天堂影院| 日韩欧美国产三级电影视频| 亚洲精品一区二区三区区别| 精品第一国产综合精品aⅴ| 亚洲精品字幕在线观看| 亚洲第一二三四五区| 无码精品视频一区二区三区 | 国产精品自拍区| 欧美一区二区三区成人久久片| 国产一区一区| 97视频中文字幕| av成人综合| 欧美成ee人免费视频| 欧美日韩高清| 欧美h视频在线观看| 欧美日一区二区在线观看| 国产 日韩 欧美在线| 欧美一级二区| 性chinese极品按摩| 捆绑调教一区二区三区| 极品人妻一区二区| 99精品视频一区| 日韩av片在线| 一区二区三区欧美| 欧美国产成人精品一区二区三区| 亚洲一区在线播放| 日韩成人高清视频| 欧美亚洲禁片免费| 国产99视频在线| 亚洲精品中文字| 免费a级人成a大片在线观看| 欧美大片免费看| 大胆人体一区| 91在线网站视频| 窝窝社区一区二区| 中国黄色录像片| 亚洲在线视频| 91在线第一页| 久久综合五月天婷婷伊人| 91香蕉一区二区三区在线观看| 欧美高清在线视频| 久久免费视频99| 欧美午夜精品一区二区蜜桃| 国模私拍视频在线| 色yeye香蕉凹凸一区二区av| 黄视频免费在线看| 91精品久久久久久久久久入口 | 亚洲s色大片| 久久人人爽国产| 国产精品国产三级在线观看| 蜜桃臀一区二区三区| 好看的av在线不卡观看| 欧美在线aaa| 久久久久99精品国产片| 少妇影院在线观看| 欧美撒尿777hd撒尿| 视频福利在线| 久久久久久网址| 久久伊人精品| 一本久道久久综合狠狠爱亚洲精品| 欧美gayvideo| 欧在线一二三四区| 99天天综合性| 久久久全国免费视频| 日韩一区二区三区电影在线观看| www.香蕉视频| 日韩在线观看精品| 亚洲精品555| 欧美高清视频一区| 国产视频一区在线观看一区免费| 国产免费人做人爱午夜视频| 懂色一区二区三区免费观看| 国产精品99久久久久久成人| 欧美亚洲一区三区| 美女毛片在线看| 欧美又大粗又爽又黄大片视频| se69色成人网wwwsex| 欧洲久久久久久| 国产精品色网| av无码av天天av天天爽| 欧美日韩精品在线播放| 天天干,天天操,天天射| 久久久久久伊人| 国产厕拍一区| 欧美深夜福利视频| a级高清视频欧美日韩| 五月婷婷开心网| 亚洲精品福利视频| 69av成人| 成人91免费视频| 一区二区蜜桃| 麻豆精品国产传媒| 亚洲综合色视频| 午夜精品久久久久久久91蜜桃| 欧美影片第一页| 波多野结衣在线影院| 欧美一区二区影院| 国产精品一区二区av日韩在线| 青青草原国产免费| 欧美亚洲在线| 国产精品视频在| 日本久久一区二区三区| 成人性生交大片免费看午夜| 热re91久久精品国99热蜜臀| 欧美男同视频网| 黄色一级大片在线观看| 99在线精品观看| 无码人妻一区二区三区线| 中文字幕久热精品在线视频| 日韩欧美看国产| 一区二区三区偷拍| 黑人巨大精品欧美一区| 色屁屁草草影院ccyy.com| 欧美卡1卡2卡| 制服丝袜中文字幕在线| 精品一区二区三区国产| 欧美一级专区| 爱爱视频免费在线观看| 日韩欧美国产高清| 成人av观看| 日韩高清dvd| 亚洲永久字幕| frxxee中国xxx麻豆hd| 日韩视频免费直播| 超碰一区二区| 亚洲国产一区二区三区在线播| 国产精品人人爽人人做我的可爱 | 国产亚洲亚洲| 超薄肉色丝袜一二三| 在线不卡一区二区| 久久不射影院| 精品综合久久久| 激情都市一区二区| 久久免费视频播放| 欧美成人艳星乳罩| 二区三区不卡| 五月天色一区| 成人av影院在线| 一级片视频在线观看| www.久久久久久.com| 国产精品黄网站| 亚洲一区在线不卡| 亚洲午夜激情av| 久做在线视频免费观看|