精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NLP模型讀不懂人話?微軟AdaTest挑錯效率高五倍

人工智能 新聞
2022年5月底,微軟的AI研發人員在預印本網站發表論文,提出了調試NLP模型的全新路徑AdaTest。

?自然語言處理(NLP)模型讀不懂人話、將文本理解為相反的意思,是業界頑疾了。 現在微軟表示,開發出解決此弊的方法。

微軟開發AdaTest方法來測試NLP模型

 可作為跨越各種應用基礎的大型模型,或稱平臺模型的進展已經大大改善了AI處理自然語言的能力。但自然語言處理(NLP)模型仍然遠不完美,有時會以令人尷尬的方式暴露缺陷。 

例如有個頂級的商用模型,將葡萄牙語中的「我不推薦這道菜」翻譯成英語中的「我非常推薦這道菜」。 

這些失敗之所以繼續存在,部分原因是尋找和修復NLP模型中的錯誤很難,以至于嚴重的錯誤影響了幾乎所有主要的開源和商業NLP模型。 目前尋找和修復NLP模型錯誤的方法有兩種:或是用戶驅動的,或是自動的。  

用戶驅動的方法很靈活,可以測試NLP模型行為的任何方面。但此方法依賴于人類極為參差不齊的想象且辨識錯誤的能力,并且是極度勞動密集型的,以至于在實踐中只有一小部分的輸入數據量可用來測試。 

另一方面,自動方法很快速,因此可以處理輸入數據的很大一部分。然而,由于缺乏人類的把控,它們只能在非常有限的情況下測試一個模型是對還是錯,例如當模型處理有輕微變化的輸入措辭時,其預測結果就會出現不一致。 

圖片

微軟的研究者們認為,像GPT-3這樣的現代大型語言模型(LLMs),為業界提供了一個機會,可以嘗試將用戶驅動方法和自動方法的優勢結合起來,讓用戶來定義被測試的模型應該做什么,同時利用現代大型語言模型的生成能力,在特定的模型行為類別中生成大規模的測試。 

微軟研究者將此類人機結合的路徑,稱之為「適應性測試與去Bug」,縮寫為AdaTest。 通過AdaTest,一個大型的語言模型被賦予了重負:生成大量的、針對受測模型中的錯誤的測試。 

而人工干涉則通過選擇有效的測試、并將它們組織到語義相關的主題中,來引導語言模型的生成工作。 這種來自人工的指導極大地提高了語言模型的生成性能,并將其引向目標領域。 

因為這些測試實際上是一種標記數據的形式,它們不僅可以識別NLP模型的錯誤,而且可以用來在類似于傳統軟件開發的迭代調試循環中,修復NLP模型的錯誤。 

AdaTest為專業用戶提供了顯著的效率提升,同時又足夠簡單,可以讓沒有編程背景的普通人也能有效使用。 這意味著專業用戶和普通用戶都能更好地理解和控制在NLP模型一系列場景中的行為,這不僅使AI系統表現更好,而且使AI系統更有效呼應用戶需求。 

用測試循環發現漏洞

 AdaTest模式由一個內部測試循環和一個外部調試循環組成,前者用于發現錯誤,后者用于修復錯誤。 

雖然這項任務看起來很簡單,但即使是市面上的SOTA模型們也常出現失誤。 比如有的SOTA模型會將「我認為我一生中沒有過更美好的時光」的雙重否定句歸類為情緒負面,或者簍子更大的將「我是一個少數族裔」這句話歸類為情緒負面。 

這兩種情況都是在市面上商業模型真實發生過的失誤。 為了證明AdaTest可以發現和修復錯誤,微軟的研究團隊演示了如何測試并修復NLP模型的文本公平性失誤。 

NLP模型的文本公平性失誤,即是在一段文本中對特定屬性群體的中性描述,可能導致NLP模型的文本情感分析功能出錯,錯誤地降低文本的情感權重。也就是說,模型可能會更負面地對待特定群體的描述。

 圖片 

在測試循環中,微軟研究者從一組關于各種身份的文本單元測試開始,并將這組測試標記為「敏感」。這些最初的例子并沒有發現任何模型的錯誤。 

不過AdaTest方法用GPT-3生成了大量語料類似的暗示性測試,以此來突出測試對象模型潛藏的bug。 

雖然產生了數以百計的測試,但干預的人員只需要審查前幾個錯誤或接近錯誤的測試。 然后,人工干預忽略那些并沒有真正犯錯的測試結果,并將其他有效的測試結果添加到當前主題中,也偶爾將它們組織到其他的子主題中去 這些經過人工過濾的測試結果會包含在下一輪輸入的語言模型提示中,如此將下一組輸入數據的處理結果,推向用戶關注點和模型出錯bug之間的交叉點。 

重復這一內部測試循環,可以讓NLP模型從不出錯開始,慢慢地暴露出越來越顯著的錯誤和bug。 因此,即使用戶自己不能找到模型的故障,他們也可以從一小部分通過的測試開始,然后迅速與NLP模型迭代,產生一大批測試,揭示出被測模型的錯誤。

 圖片

內部測試循環示例 如果測試者不使用文本情感分析的主題,而是針對一個不同的主題,比如處理否定句與雙重否定句,測試者會發現不同的故障。 

例如,「我從未比現在更快樂」這樣簡單的語句,商業模型可以正確地將其歸類為積極的。不過用AdaTest方法,可以很快發現像 「我不認為我曾經見過一個更好的城市」這樣的復雜語句會被NLP模型錯誤標記為消極。 

一旦測試者看到這些錯誤,就會發現它們的惡劣性和明顯性,但它們很難被人工直接發現,因為它們只發生在非常具體的措辭中。 微軟的研究團隊進行了用戶調研,以定量評估AdaTest是否使專業用戶和非專業用戶更好地編寫測試和發現NLP模型中的錯誤。 研究者要求專業用戶測試兩個模型中的特定主題功能:一個商業用的文本情感分類器和GPT-2用于下一個詞的自動完成。 

這個功能用于預測正在輸入的電子郵件中的下一個詞等應用。 對于每個主題和模型,參與者被隨機分配到使用CheckList(代表用戶驅動測試的SOTA)或AdaTest。 研究者觀察到AdaTest在不同的模型和專業參與者中都有五倍的改進。 

研究者對非專業用戶的測試要求,是在NLP模型測試毒性語料的內容管制。參與者要找到被模型判定為有毒語料中的非毒性內容,也就是他們個人覺得合適的內容。 參與者可以使用改進版的Dynabench眾包界面進行模型測試,也可以使用AdaTest。 結果是AdaTest提供了高達10倍的改進。 

圖片

不同觀點人群做測試參與者的測試效果圖 

利用調試循環修復bug

 一旦發現了足夠多的錯誤,模型的測試人員就會進行外部調試循環(如下圖),修復在測試循環中發現的錯誤,然后重新測試模型。 在這個流程中,調試循環的「再測試」部分(即再次運行測試循環)是至關重要的,因為一旦用測試來修復模型,它們就不再是測試數據,而是訓練數據了。修復錯誤的過程往往會過度補償,在調試循環的最初幾輪中引入捷徑或錯誤,而這些錯誤只能用一組適應新的「固定」模型的測試來發現。 

在一個開源的RoBERTa-Large情感模型上的測試循環流程。 研究者從圖2中的「/敏感/移民 」主題的測試開始,RoBERTa模型將其錯誤地標記為負面。在這些測試中對模型進行微調(與原始訓練數據混合以保持任務性能),結果是一個不再失敗的新模型。 然而,當重新運行測試循環時,發現現在幾乎所有的移民語句都被標記為 「中性」,即使它們基于應用和測試場景是真正的負面的。

使用這些新的測試再次進行微調,結果是模型正確地修復了原來的錯誤,而沒有增加 「每個移民語句都是中性的」這一捷徑。 當然,這并不能保證模型中不存在另一個捷徑,但根據研究者的經驗,幾輪調試循環之后,大大減少了修復原始錯誤時引入的意外錯誤的數量。 

測試人員不需要提前詳盡地識別每一個可能的錯誤,AdaTest會自適應地顯現并修復在下一輪測試和調試中引入的錯誤。

因此,調試循環推動了當前bug測試規范 的邊界,直到產生一個令人滿意的模型為止。 事實上,AdaTest可以被看作是軟件工程中測試-修復-再測試循環在NLP中的應用。 

圖片

在調試循環的迭代過程中添加的捷徑被發現,并被未來的迭代所修復 為了評估調試循環的有效性,使用Quora問題數據集對RoBERTa-Large進行了微調,以檢測兩個問題是否重復,還使用斯坦福情感樹庫(SST)數據集對其進行了微調,以進行正面/中立/負面的情感分析。 

結果發現,基線模型在53個QQP主題中的22個主題上,以及39個情感主題中的11個主題中沒能成功識別。之后,研究者創建了數據來修復主題。 從該主題的數據中抽取50個例子,用AdaTest運行調試循環,在QQP數據集上,平均進行41.6次測試,在情感數據集上,平均要進行55.8次測試。 

結果表明,在絕大多數情況下,AdaTest修復了用于訓練的題目和一些未見過的保留題目,沒有破壞任何題目,而原始的CheckList數據經常引入新的錯誤,從而破壞其他測試題目。 研究者還評估了AdaTest在標準開發環境中的有效性。經過三個月的開發、CheckList測試和基于GPT-3的臨時數據增強,在野外收集的未見過的數據上,F1分數為0.66(滿分1.00)。 

同一個團隊使用AdaTest,在他們自己運行調試循環四個小時后,在相同的未見過的數據集上的F1分數為0.77。之后又在第二個未見過的數據集上復現了這些分數,這表明,AdaTest可以在傳統方法所涉及領域進行錯誤修復,并取得更好的效果。 

人們提供語言模型所缺乏的問題規范,而語言模型則以更大的規模和范圍上提供高質量的測試,并將模型測試和調試連接起來,有效修復錯誤,使模型開發向傳統軟件開發的迭代性質邁進了一步。 

人類與AI的合作,代表了機器學習發展的一個未來的方向,希望這種協同會隨著大型語言模型能力的不斷增長而不斷提高。?

責任編輯:張燕妮 來源: 新智元
相關推薦

2011-09-13 09:57:25

谷歌云計算

2022-10-17 08:03:54

CPUDMAKafka

2011-04-06 14:20:50

Java編程

2011-04-13 09:13:02

Java內存

2023-09-18 13:14:00

AI工具

2024-04-02 10:13:25

在線小工具開發

2012-03-12 11:48:44

惠普激光打印機

2023-07-26 07:02:04

2020-01-15 14:20:07

Node.js應用程序javascript

2022-03-31 16:47:30

mysqlcount面試官

2022-09-16 15:02:19

戴爾

2011-04-25 17:04:28

傳真機

2020-07-16 15:20:13

switch...caif...else語言

2012-05-10 15:32:26

惠普激光打印機

2022-02-07 09:05:00

GitHub功能AI

2020-10-20 09:20:28

Linux系統管理員技巧

2019-07-05 16:26:06

MySQLcount(1)count(*)

2021-09-30 10:55:05

微軟模型技術

2012-05-09 13:20:00

Win7

2022-07-15 09:25:01

AI制藥
點贊
收藏

51CTO技術棧公眾號

外国成人免费视频| 英国三级经典在线观看| 国产情侣一区| 亚洲毛片在线观看.| wwwwww欧美| 五月天婷婷在线播放| 婷婷综合社区| 国产视频亚洲精品| 欧美成人乱码一二三四区免费| 视频一区二区三区在线看免费看| 午夜视频精品| 亚洲欧美日韩国产成人| 亚洲熟妇无码一区二区三区| 99精品视频免费看| 亚洲一区观看| 欧美富婆性猛交| 五月婷六月丁香| 好吊妞视频这里有精品 | 免费xxxx性欧美18vr| 亚洲人成电影网| 在线观看视频你懂得| 黄网站免费在线播放| 美国一区二区三区在线播放 | 超碰在线国产| 成人免费视频免费观看| 韩剧1988免费观看全集| 亚洲激情 欧美| 亚洲精品三区| 在线观看免费一区| 精品欧美一区免费观看α√| 香蕉久久国产av一区二区| 99精品视频免费全部在线| 亚洲国产小视频| 久久6免费视频| 色成人免费网站| 欧美日韩中文在线| 成人免费在线网| 制服丝袜中文字幕在线| av亚洲精华国产精华| 98精品在线视频| 手机在线免费看毛片| 伊人精品久久| 制服丝袜亚洲网站| 狠狠操狠狠干视频| 成人全视频在线观看在线播放高清 | 国产精品国产自产拍高清av王其| 国产精品亚洲激情| 亚洲另类在线观看| 国产亚洲毛片| 91精品国产乱码久久久久久久久 | 欧美高清视频在线播放| 五月天丁香社区| 91精品国产一区二区在线观看| 尤物av一区二区| 正在播放一区| 成人黄色网址| 亚洲精品va在线观看| 国内精品一区二区| 成人毛片视频免费看| 久久精品免费| 国产精品白丝jk喷水视频一区| 中文字幕求饶的少妇| 久久久国产精品入口麻豆| 五月综合激情网| 免费看国产一级片| 午夜影院在线播放| 色猫猫国产区一区二在线视频| 在线视频一区观看| 美女黄视频在线观看| 99久久精品免费精品国产| 国产欧美精品日韩精品| 国产精品23p| 国产日韩一区| 国产成人精品电影| 在线观看中文字幕网站| 中文在线不卡| 国产成人jvid在线播放| 麻豆视频在线观看| 夜久久久久久| 国产精品海角社区在线观看| 日本一级淫片免费放| 羞羞答答成人影院www| 精品亚洲精品福利线在观看| www激情五月| 国产精品zjzjzj在线观看| 欧美美女视频在线观看| 久久久精品在线视频| 成年人视频免费在线播放| 国产精品国产三级国产普通话蜜臀 | 国产无人区码熟妇毛片多| 亚洲二区三区不卡| 国内精品400部情侣激情| 91porn在线视频| 一本综合久久| 国产人妖伪娘一区91| 欧美成人一区二区三区四区| 精品91视频| 日本欧美国产在线| 国产欧美日韩成人| 成人黄色av网站在线| 国产美女精品在线观看| 国产黄色片免费| 久久久久高清精品| 在线观看av的网址| 午夜精品久久久久久久久久蜜桃| 同产精品九九九| 亚洲国产精品三区| 国产精伦一区二区三区| 日韩免费看网站| 国产精品九九九九九| 偷拍精品福利视频导航| 亚洲黄色av女优在线观看| 日本不卡视频一区| 欧洲三级视频| 69精品小视频| 国产ts变态重口人妖hd| 国v精品久久久网| 午夜精品一区二区在线观看| 国产乱视频在线观看| 国产日产亚洲精品系列| 三级三级久久三级久久18| 国产精品久久久久一区二区国产 | 国内精品**久久毛片app| 黄色三级网站在线观看| 风流少妇一区二区| 中国人体摄影一区二区三区| mm1313亚洲国产精品美女| 亚洲精品老司机| 午夜在线观看av| 天天久久夜夜| 性色av一区二区三区免费| wwwxxx亚洲| 粉嫩久久99精品久久久久久夜| 国产二区不卡| 成人无遮挡免费网站视频在线观看 | 国产日本一区二区三区| 亚洲 欧美 自拍偷拍| 久久久精品日韩欧美| 婷婷四房综合激情五月| 黄色在线免费网站| 欧美日韩亚洲另类| www亚洲色图| 丝袜美腿亚洲色图| 欧美高清视频一区| 人人草在线视频| 日韩av最新在线观看| 欧美亚洲色综久久精品国产| 亚洲破处大片| 亚洲影院在线看| 黄a在线观看| 91精品黄色片免费大全| 亚洲午夜久久久久久久久| 九九热爱视频精品视频| 北条麻妃久久精品| 一区二区久久精品66国产精品| 丁香婷婷综合五月| 国产aaa免费视频| 久草在线综合| 91精品国产91久久久久久最新| 自拍偷拍第八页| 中文字幕精品三区| 色呦色呦色精品| 中文字幕亚洲综合久久五月天色无吗''| 91久久国产精品91久久性色| 无码国产精品一区二区色情男同| 欧美精彩视频一区二区三区| www国产免费| 777久久精品| 久久久久久久久中文字幕| 一区二区视频网站| 亚洲欧洲国产日韩| 在线观看视频在线观看| 国产日韩欧美一区二区三区| 欧美噜噜久久久xxx| 亚洲高清在线看| 国产精品久久久久毛片软件| 99精品在线免费视频| 日韩区一区二| 91国产一区在线| 91高清在线| 精品国产精品一区二区夜夜嗨| 免费在线观看黄色小视频| 99在线观看免费视频精品观看| 亚洲一区中文字幕| 超碰资源在线| 中日韩午夜理伦电影免费| 老熟妇仑乱一区二区av| 成人av在线资源| 欧美精品第三页| 自拍欧美日韩| 欧美凹凸一区二区三区视频| 91福利在线免费| 在线视频一区二区| 欧美 日韩 国产 在线| 一区二区三区产品免费精品久久75| 欧洲熟妇精品视频| 亚洲欧美文学| 日产精品一线二线三线芒果| 丝袜老师在线| 久久视频在线播放| 欧美女子与性| 日韩欧美在线不卡| 日韩不卡在线播放| 亚洲乱码一区二区三区在线观看| 国产精品嫩草影视| 久久三级福利| 中国老女人av| 精品国产午夜| 国产日韩精品一区观看| 欧美男男tv网站在线播放| 亚洲激情在线视频| 国产免费久久久| 欧洲人成人精品| 91精品国产高潮对白| 成人黄色在线网站| 久久久福利影院| 免费久久精品视频| 久久人妻精品白浆国产| 精品国产精品| 精品一区二区视频| 日本高清精品| 国产一区玩具在线观看| 中文在线观看免费| 中文字幕日韩高清| 日韩偷拍自拍| 亚洲第一区在线观看| 无码人妻精品一区二区三区蜜桃91 | 国产精品久久久久久超碰| www.在线播放| 亚洲免费电影一区| 五月婷婷免费视频| 欧美精品一区二区三区视频| 黄色在线观看国产| 亚洲1区2区3区视频| 日本少妇高潮喷水xxxxxxx| 日韩电影在线免费看| 亚洲国产日韩综合一区| av在线播放一区二区| 久久久久女教师免费一区| 日本亚洲一区| 亚洲国产日韩欧美在线99| 五月天中文字幕| 色综合久久久久| 亚洲欧美偷拍一区| 狠狠久久五月精品中文字幕| 国产精品无码无卡无需播放器| 国产毛片精品国产一区二区三区| 极品美女扒开粉嫩小泬| 欧美亚洲国产激情| 少妇精品久久久久久久久久| 日韩精品视频在线看| 琪琪亚洲精品午夜在线| 黄色网址免费在线观看| 日韩av在线网站| 天堂中文在线官网| 精品中文视频在线| 国产大片在线免费观看| 日韩欧美不卡一区| 亚洲精品国产av| 精品成a人在线观看| 一本色道久久综合熟妇| 亚洲18色成人| 999这里只有精品| 欧美性高跟鞋xxxxhd| 欧美日韩成人免费观看| 国产色爱av资源综合区| 欧美激情 亚洲| 99久久精品国产导航| 先锋资源在线视频| 成人午夜免费视频| 国产一级黄色录像| 久久你懂得1024| 亚洲激情图片网| 亚洲精品久久嫩草网站秘色| 日韩毛片无码永久免费看| 99精品视频在线免费观看| 奇米777在线视频| 成人午夜视频免费看| 永久av免费在线观看| 蜜臀精品久久久久久蜜臀| 一本大道熟女人妻中文字幕在线 | 国产不卡一区二区视频| 99精品视频在线| www.成年人视频| 日韩精品乱码av一区二区| 精品久久一二三| 免费在线看成人av| 国产chinesehd精品露脸| 精品写真视频在线观看| 91日韩视频在线观看| 视频一区二区欧美| 在线播放免费视频| 99精品视频一区二区三区| 四季av综合网站| 国产精品国产三级国产普通话蜜臀| 人妻aⅴ无码一区二区三区| 91麻豆免费视频| 国产喷水在线观看| 欧美日韩精品在线观看| 91香蕉在线视频| 欧美人与z0zoxxxx视频| 中文字幕在线2018| 亚洲福利视频二区| av中文字幕一区二区三区| 在线性视频日韩欧美| 国内av一区二区三区| 亚洲美女av电影| a级影片在线观看| 国产精品第1页| 国产精品网在线观看| 国产高清在线一区二区| 97久久亚洲| 在线视频福利一区| 日日夜夜精品视频天天综合网| 亚洲视频在线a| 国产 日韩 欧美大片| 屁屁影院国产第一页| 91美女在线视频| 18精品爽视频在线观看| 欧美日韩国产色| av官网在线观看| www.久久色.com| 欧美aa视频| 久久国产手机看片| 亚洲人成久久| wwwxxxx在线观看| 成人欧美一区二区三区白人| 欧美人与禽zozzo禽性配| 亚洲成a人片在线观看中文| 日产精品久久久| 亚洲成人亚洲激情| 色黄网站在线观看| 亚洲综合视频1区| 亚洲成av人片乱码色午夜| 800av在线免费观看| 亚洲区第一页| 精品1卡二卡三卡四卡老狼| 26uuu精品一区二区三区四区在线| 精品国产无码在线观看| 国产精品美女久久久久aⅴ国产馆| 懂色av蜜臀av粉嫩av永久| 一区二区三区欧美亚洲| 国产香蕉视频在线| 日韩精品一区二区三区在线播放 | 神马影院一区二区三区| 日韩欧美伦理| 色综合天天色综合| 国产欧美精品一区二区色综合| 欧美xxxx精品| 91国产免费看| 国产福利小视频在线| 欧美福利视频在线观看| 色8久久影院午夜场| 91久久久久久久一区二区| 国产精品x8x8一区二区| 亚洲狠狠婷婷综合久久久| 欧美三级小说| 日本人妻一区二区三区| 国产日韩精品一区| 最好看的日本字幕mv视频大全| 日韩视频免费观看高清完整版在线观看 | 91精品黄色| 亚洲午夜伦理| 成人在线视频免费播放| 中文字幕中文字幕在线一区| 国产黄色片视频| 日韩精品在线免费观看视频| 成人看片免费| 国产伦理一区二区三区| 91亚洲国产| 少妇丰满尤物大尺度写真| 国产精品欧美综合在线| 少妇一级淫片免费放中国 | 国产大片一区| 日本少妇xxx| 欧美日韩亚洲天堂| 成人在线播放视频| 91av一区二区三区| 欧美私人啪啪vps| 人妻丰满熟妇av无码久久洗澡 | 国产制服丝袜一区| 欧美成人国产精品高潮| 欧美日韩中国免费专区在线看| 国产乱码久久久| 蜜月aⅴ免费一区二区三区| 国产亚洲一区二区手机在线观看 | 中文字幕亚洲精品在线观看| 国产又大又粗又爽| 日韩视频在线一区| 成人爽a毛片| 午夜免费高清视频| 亚洲一区二区三区在线| 国产精品伦一区二区三区| 中文字幕欧美日韩精品| 竹内纱里奈兽皇系列在线观看 | 国产在线观看福利| 国产精品日韩精品欧美在线| av手机天堂网| 欧美夫妻性视频| 91综合在线|