精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌發布含7種語言的全新數據集:有效提升BERT等多語言模型任務精度高達3倍!

新聞 機器學習
近日,谷歌發布了包含 7 種語言釋義對的全新數據集,即:PAWS 與 PAWS-X。BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

近日,谷歌發布了包含 7 種語言釋義對的全新數據集,即:PAWS 與 PAWS-X。BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升;其它先進的模型也能夠利用該數據集將精度提高到 85-90%。谷歌希望這些數據集將有助于推動多語言模型的進一步發展,并發布了相關文章介紹了該數據集,雷鋒網 AI 開發者將其整理編譯如下。

[[278629]]

背景環境

詞序和句法結構對句子意義有很大影響,即使詞序中的一點小改動也能完全改變句子的意思,例如下面的一組句子:

  1. Flights from New York to Florida.(從紐約飛往佛羅里達州的航班)

  2. Flights to Florida from New York.(從紐約出發到佛羅里達州的航班)

  3. Flights from Florida to New York.(從佛羅里達州飛往紐約的航班)

盡管這三個詞都有相同的詞組;但是 1 和 2 具有相同的含義,我們將這樣的一組句子對稱為釋義對(paraphrase pairs),而 1 和 3 有完全相反的含義,所以我們將其稱為非釋義對(non-paraphrase pairs)。識別一對句子是否為釋義對的任務則被稱為釋義識別,這一任務對于許多實際應用中的自然語言理解(NLU)處理而言是非常重要的,例如:常見的問答任務等。

但令人驚訝的是,目前即使是最先進的模型,如:BERT,如果僅在現有的 NLU 數據集下進行訓練,并不能正確地識別大部分非釋義對(就像上面所列舉的 1 與 3)之間的差異。其中很大的原因是由于在現有 NLU 數據集中,缺少諸如此類的訓練數據。因此,即使現有的機器學習模型能夠很好地理解復雜的上下文短語,它們依舊很難擁有對該類任務的判斷能力。

PAWS 數據集與 PaWS-X 數據集

為了解決這一問題,我們發布了兩個新的數據集,致力于幫助社區進行相關的研究。數據集包括:

  • 支持英語的釋義識別對抗性數據集 PAWS(Paraphrase Adversaries from Word Scrambling,https://arxiv.org/abs/1904.01130)

  • 支持多語言的釋義識別對抗性數據集 PaWS- X(https://arxiv.org/abs/1908.11828)

其中,PaWS-X 數據集則是在 PAWS 數據集基礎上,擴展得到包含另外六種不同類型語言的釋義識別對抗性數據集,支持的語言包括:法語、西班牙語、德語、漢語、日語和韓語。

這兩個數據集都包含了格式良好、具有高度重疊詞匯的句子對。其中大約有一半的句子對是釋義對,另一些則不是,數據集也包含了最先進模型的訓練數據。通過新數據的訓練,該模型對釋義識別任務的精度從 50% 提高到了 85-90%。

相比之前即使在有新的訓練數據時,無法獲得非本地上下文信息的模型仍然無法完成釋義識別任務的情況;這一新數據集則為測量模型對語序和結構的敏感性提供了一個有效的工具。

數據集詳情

PAWS 數據集共計包含了 108463 組由人工標記的句子對,這些數據來源于 Quora Question Pairs(QQP,https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs)以及維基百科頁面(https://www.wikipedia.org/)。

PAWS-X 數據集則包含了 23659 組由人工判斷而得的 PAWS 擴展句子對,以及 296406 組由機器翻譯的訓練對。下表給出了數據集的詳細統計。

PAWS-X 的訓練集是從 PAWS wiki 數據集的一個子集通過機器翻譯而來的

支持英語的 PAWS 數據集

在「PAWS: Paraphrase Adversaries from Word Scrambling(https://arxiv.org/abs/1904.01130)」一文中,我們介紹了在生成具有高度詞重疊的且具有釋義性的句子對的工作流程。

為了生成數據對,源語句首先被傳遞到一個專門的語言模型(https://en.wikipedia.org/wiki/Language_model),該模型將創建具有語義的單詞交換變體句,但無法保證生成句子與原句是否互為釋義對的關系;接著再由人工評判員判斷句子的語法是否正確,然后由其它人工評判員來判斷它們是否互為釋義句。

PAWS 語料庫創建工作流

這種簡單的單詞交換策略存在的一個問題,即它往往會產生不符合常識的「釋義句」,例如:「why do bad things happen to good people」和「why do good things happen to bad people」,盡管單詞都相同,但「為什么壞事會發生在好人身上」的意義和「為什么好事會發生在壞人身上」完全不同。

因此,為了確保釋義和非釋義之間的平衡,我們增加了其他基于反譯的數據信息。因為反譯往往表現出與此類方法相反的傾向,它會選擇優先保留句子意義,然后在這基礎上改變詞序和詞語選擇。這兩種策略共同保證 PAWS 語料庫總體的平衡,尤其是維基百科部分的數據。

多語言 PAWS-X 數據集的創建

在建立了 PAWS 數據集之后,我們將它擴展出了其它六種語言,包括:漢語、法語、德語、韓語、日語和西班牙語。在這過程中,我們采用了人工翻譯來完成句子對的翻譯擴展和測試集生成工作,并使用神經網絡機器翻譯(neural machine translation,NMT)服務來完成訓練集的翻譯。

我們從六個語言中(共計 48000 組翻譯)的每一個 PAWS 擴展集上,隨機抽取了 4000 個句子對進行人工翻譯(翻譯者所翻譯語言均為母語)。每一組句子都是獨立的,從而保證翻譯不會受到語境的影響,然后再由第二個工作者驗證隨機抽樣子集,最終使得數據集的字級錯誤率小于 5%。

注意,如果所得句子不完整或模棱兩可,我們允許專業人士不翻譯。平均只有不到 2% 的句子對沒有被翻譯,我們暫且將它們排除在外。最終的翻譯對被分為新的擴展集和測試集,每個集合大約包含 2000 組句子對。

德語(DE)和漢語(ZH)的人工翻譯句子對的例子

使用 PAWS 和 PAWS-X 來理解語言

我們在所創建的數據集上訓練多個模型,并對評估集上的分類精度進行度量。當用 PAWS 訓練強大的模型后,如 BERT 和 DIN,這些模型對現有 QQP 數據集進行訓練時的表現會產生顯著的改善。

如果在現有 QQP 上訓練,BERT 僅獲得 33.5 的精度,但是當給定 PAWS 訓練實例時,即使用來自 QQP的 PAWS 數據(PAWS-QQP),它的精度將達到 83.1 。

不過與 BERT 不同,Bag-of-Words(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型無法從 PAWS 訓練實例中進行學習,這也展示了它在捕捉非局部上下文信息方面的弱點。但總體來看,這些結果都表明了 PAWS 可以有效地度量模型對詞序和結構的敏感性。

PAWS-QQP 精度評估設置(英文)

下圖顯示了主流的多語言 BERT 模型(https://github.com/google-research/bert/blob/master/multilingual.md)在 PAWS X 上使用幾種常用方法所表現的性能,其中:

  • Zero Shot:該模型使用支持英語的 PAWS 數據集進行訓練,然后直接評估所有其他翻譯,這種方法不涉及機器翻譯。(引申:Zero-Shot 翻譯則是指在完成語言 A 到語言 B 的翻譯訓練之后,語言 A 到語言 C 的翻譯不需要再經過任何學習,它能自動把之前的學習成果轉化到翻譯任意一門語言,即便工程師們從來沒有進行過相關訓練)

  • Translate Test(翻譯測試):使用英語訓練數據訓練一個模型,并將所有測試用例翻譯成英文進行評估。

  • Translate Train(翻譯訓練):英語訓練數據被機器翻譯成每種目標語言,以提供數據來訓練每一個模型。

  • Merged(歸并):在所有語言上訓練多語言模型,包括原始英語對和所有其他語言的機器翻譯數據。

結果表明,新數據集除了為跨語言的技術提供了幫助,同時也留下了很大的余地進而驅動多語種釋義識別問題的研究。

基于 BERT 模型的 PAWS-X 測試集的精度

數據集下載相關

PAWS-Wiki 

該語料庫包含從維基百科頁面生成的句子對(可直接下載),包括:

  • PAWS-Wik 標記集(終版) 包含從單詞交換和反譯方法生成的句子對。所有的組別都有釋義性和流暢性的人工判斷,它們被分為訓練/擴展/測試部分。

  • PAWS-Wik 標記集(僅交換) 包含沒有反譯對應項的句子對,因此該子集不包含在第一組中。但數據集質量很高,包含人工對釋義性和流暢性的判斷,可以作為輔助訓練集。

  • PAWS-Wik 未標記集(終版) 包含從單詞交換和反譯方法生成的句子對。但該子集中有噪聲標記但沒有人工判斷,也可用作輔助訓練集。

PAWS-QQP 

該語料庫包含了從 QQP 語料庫生成的對,但由于 QQP 的許可證,我們不能直接獲得 PAWS-QQP 數據,因此必須通過下載最原始數據,然后運行腳本生成數據并附加標記來重建示例。

重建 PAWS-QQP 語料庫,首先需要下載原始的 QQP 數據集,并將 tsv 文件保存到某個位置/path/to/original_qqp/data.tsv;然后從特定鏈接下載 PAWS-QQP 索引文件。

PAWS-X

該語料庫包含六種不同語言的 PAWS 示例翻譯,包含:法語、西班牙語、德語、漢語、日語和韓語。詳情可通過這里查看(https://github.com/google-research-datasets/paws/tree/master/pawsx)。

需要注意的是,對于多語言實驗,請使用 paws-x repo 中提供的 dev_2k.tsv 作為所有語言(包括英語)的擴展集。

[[278631]]

數據集下載地址:

https://github.com/google-research-datasets/paws

原文鏈接:

https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html 

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2023-09-04 19:19:36

語言模型LLM

2023-05-23 14:14:14

技術模型

2020-10-28 10:38:08

谷歌模型機器翻譯

2024-11-25 15:30:00

語言模型數據

2014-07-09 09:20:06

WPFWPF應用

2022-08-09 07:22:15

語言數據庫程序

2014-04-16 14:50:20

Spark

2021-08-09 10:03:03

數據開源語音

2021-03-02 13:53:37

人工智能深度學習Google mBER

2009-08-25 10:44:50

C#實現多語言

2011-08-05 17:54:33

Cocoa Touch 多語言

2012-04-19 11:40:21

Titanium

2023-08-04 10:18:15

2021-06-29 21:48:32

開源語言架構

2021-09-07 10:17:35

iOS多語言適配設計

2024-05-09 08:14:09

系統設計語言多語言

2025-06-06 14:32:20

阿里開源Qwen3

2022-02-21 09:35:36

機器學習自然語言模型

2025-08-11 07:00:00

2009-07-17 10:02:29

WPF程序多語言支持
點贊
收藏

51CTO技術棧公眾號

精品女同一区二区三区在线播放| 国产精品主播直播| 亚洲人线精品午夜| www.日本一区| 天堂av最新在线| 99精品久久99久久久久| 国产盗摄xxxx视频xxx69| 国产人与禽zoz0性伦| 国产成人一二片| 在线免费不卡视频| 丰满人妻一区二区三区53号 | 性欧美videoshd高清| 成人中文字幕电影| 国产精品丝袜白浆摸在线| 任我爽在线视频| 日韩av午夜| 91精品在线观看入口| 黄色免费观看视频网站| 91网在线看| 亚洲国产精华液网站w| 成人欧美一区二区三区视频xxx| 亚洲第一区av| 国产精品日韩| 精品中文字幕在线| 五月天婷婷丁香网| 要久久电视剧全集免费| 日韩三级视频在线观看| 国产精品一区二区小说| 日韩电影免费看| 一区二区三区欧美亚洲| 亚洲午夜精品久久久中文影院av| 亚洲 美腿 欧美 偷拍| 国产精品一区专区| 国产97人人超碰caoprom| 日本在线观看中文字幕| 亚洲九九在线| 最近更新的2019中文字幕| 亚洲一级中文字幕| 中文字幕久久精品一区二区| 欧美一区二区三区精品| 欧美国产日韩在线播放| 中文字幕 在线观看| 图片区小说区区亚洲影院| 亚洲乱码日产精品bd在线观看| 美女国产在线| 国产精品久久一级| 一本色道久久99精品综合| 成人在线免费公开观看视频| 久久久久久久久久久久久女国产乱| 国产伦精品一区二区三| 亚洲奶汁xxxx哺乳期| 国产精品18久久久久久久久 | 国产黄色片网站| 国内精品视频一区二区三区八戒 | 国产精品亚洲四区在线观看| 欧美日韩精品高清| 自拍偷拍一区二区三区四区| 国产亚洲精彩久久| 欧美二区乱c少妇| www.久久av.com| 成人久久精品| 欧美成人官网二区| 性活交片大全免费看| 精品国产导航| 亚洲情综合五月天| 无码少妇一区二区| 97精品国产| 草民午夜欧美限制a级福利片| www.av成人| 国产精品hd| 91sa在线看| 久久久久久久久久一级| 麻豆精品一区二区三区| 亚洲一区二区三区在线视频| 丰满人妻一区二区三区四区53| 成人美女在线观看| 日本不卡一区二区三区在线观看 | 超碰成人在线播放| 麻豆国产一区| 亚洲精品久久久久久久久久久久久 | 欧美另类videosbestsex日本| 久久99亚洲网美利坚合众国| 欧美日韩激情视频8区| 精品久久久久久久无码| aa亚洲一区一区三区| 亚洲成人三级在线| 亚洲成人黄色av| 欧美一区二区三区另类 | 亚洲欧美制服另类日韩| 国产真人真事毛片视频| 欧美日韩一视频区二区| 午夜美女久久久久爽久久| 少妇久久久久久久| 国产精品自拍一区| 欧洲一区二区日韩在线视频观看免费 | va视频在线观看| 91视视频在线观看入口直接观看www | 91sa在线看| 中文字幕人妻互换av久久| 国产伦精品一区二区三区视频青涩 | 久久理论片午夜琪琪电影网| www.色国产| 国产乱码精品一品二品| 欧美成人免费在线| 超碰电影在线播放| 日本韩国欧美一区| 催眠调教后宫乱淫校园| 日韩av大片| 97国产精品免费视频| 亚洲字幕av一区二区三区四区| 成人毛片老司机大片| 水蜜桃一区二区三区| brazzers在线观看| 91麻豆精品91久久久久同性| 伊人网在线视频观看| 国产精品豆花视频| 国产日韩一区在线| 国产亚洲依依| 精品国产成人在线| 欧美日韩一区二区区别是什么 | 潘金莲一级淫片aaaaaa播放| 国产成人av一区二区三区在线 | 97超碰在线资源| 欧美午夜一区| 亚洲自拍偷拍福利| 香蕉视频网站在线观看| 欧美性生交xxxxx久久久| 亚洲免费观看在线| 亚洲国产一区二区在线观看| 国产精品国产自产拍高清av水多| 色视频免费在线观看| 亚洲图片欧美视频| 免费看91视频| 一区二区电影在线观看| 成人免费激情视频| caoporn国产精品免费视频| 色综合久久88色综合天天| 国模无码视频一区| 尤物网精品视频| 97久久精品午夜一区二区| 免费高清在线观看| 欧美日韩综合不卡| 欧美福利第一页| 日本三级亚洲精品| 色视频一区二区三区| 亚洲成人不卡| 一本色道久久88亚洲综合88| 国产一区二区视频免费| 91美女片黄在线| 久久国产亚洲精品无码| 日韩av网址大全| 日本欧美爱爱爱| 黄色软件在线| 欧美日韩中字一区| 五月综合色婷婷| 国产精品伊人色| 精品一二三四五区| 国产suv精品一区| 久久琪琪电影院| 亚洲aaaaaaa| 在线一区二区视频| 一本在线免费视频| 国产一区在线看| 真实国产乱子伦对白视频| 精品五月天堂| 日本成人激情视频| 2019中文字幕在线视频| 91精品在线观看入口| 久草精品视频在线观看| 91蜜桃婷婷狠狠久久综合9色| 中文字幕在线观看第三页| 日韩黄色大片网站| 99在线影院| 黄色成人免费网| 深夜精品寂寞黄网站在线观看| 国产精品欧美综合亚洲| 亚洲一区成人在线| 人妻少妇一区二区| 日韩 欧美一区二区三区| 亚洲av首页在线| 国产伦精品一区二区三区在线播放| 欧美又大又硬又粗bbbbb| 国产免费永久在线观看| 日韩欧美久久久| 国产成人精品777777| 亚洲欧美日本韩国| 亚洲色图14p| 极品少妇xxxx偷拍精品少妇| 日本人体一区二区| 日韩精品欧美| 动漫美女被爆操久久久| 日韩国产网站| 欧美国产一区二区三区| 成人77777| 欧美v日韩v国产v| 国产精品无码一区| 亚洲国产成人porn| 极品尤物一区二区| aaa亚洲精品一二三区| 久久人人爽av| 国产精品亚洲欧美| 一区一区视频| 亚洲男人都懂第一日本| 亚洲一区精品电影| 天天综合网站| 欧美激情手机在线视频| 婷婷在线视频| 亚洲欧美色婷婷| 好吊视频一区二区三区| 欧美美女一区二区三区| 国产日产精品一区二区三区| 依依成人综合视频| 网站永久看片免费| 久久免费看少妇高潮| av天堂一区二区| 国产精品中文字幕一区二区三区| 久久婷婷国产91天堂综合精品| 精品69视频一区二区三区Q| 精品一区二区成人免费视频| 国产成人调教视频在线观看 | 国产最新视频在线| 亚洲国产精品电影在线观看| 国产成人久久精品77777综合| 在线观看欧美精品| 欧美激情亚洲综合| 亚洲一二三专区| 成年人av电影| 自拍偷拍亚洲综合| 后入内射无码人妻一区| 久久久久88色偷偷免费| 六十路息与子猛烈交尾| 成人午夜激情影院| 欧美性受xxxx黒人xyx性爽| 中文字幕在线免费观看视频| 按摩亚洲人久久| 国产日韩精品在线看| 亚洲精品网站在线播放gif| 殴美一级特黄aaaaaa| 精品免费一区二区三区| 国产三级自拍视频| 日韩一级黄色大片| 国产999久久久| 日韩一二在线观看| a级片免费视频| 日韩午夜在线影院| 亚洲av无码一区二区三区性色| 欧美一区欧美二区| 99国产精品99| 日韩欧美一区二区视频| 精品国精品国产自在久不卡| 日韩免费视频一区| 黑人乱码一区二区三区av| 亚洲第一中文字幕| 午夜影院免费视频| 亚洲欧美在线看| www.成人.com| 日韩在线视频国产| www.久久ai| 欧美精品国产精品日韩精品| 超碰97免费在线| 欧美一级免费视频| 日韩一区二区三区免费视频| 国产女同一区二区| 国产激情一区| 成人在线免费观看一区| 欧美aaaaa级| 视频一区二区在线| 国产精品成人a在线观看| www.一区二区.com| 国产日韩一区二区三区在线播放| 大香煮伊手机一区| 久久91精品久久久久久秒播| 先锋资源在线视频| 99在线精品观看| 免费在线观看a视频| |精品福利一区二区三区| 国产一级一片免费播放| 欧美日韩国产综合新一区| 中文字幕人妻丝袜乱一区三区| 欧美高清一级片在线| 丰满人妻一区二区三区免费| 亚洲欧美日韩精品久久| 日本三级视频在线观看| 性色av一区二区三区红粉影视| 都市激情综合| 成人免费看黄网站| 天天躁日日躁成人字幕aⅴ| 日韩免费毛片| 激情六月综合| 国产无套粉嫩白浆内谢的出处| 国产精品99久久久久久有的能看 | 亚洲精品无码久久久久| 911精品国产一区二区在线| 免费观看黄色一级视频| 中文字幕自拍vr一区二区三区| 久草在线视频资源| 国产精品女主播| 国产精品丝袜在线播放| 亚洲午夜激情| 久久精品电影| 一级片免费在线观看视频| 久久看人人爽人人| 国产亚洲精品成人| 欧美人牲a欧美精品| 九一国产在线| 欧美精品999| 国产精品2区| 亚洲第一导航| 男女av一区三区二区色多| 日本一二三四区视频| 国产日韩亚洲欧美综合| 黄色小说在线观看视频| 欧美精品久久99| 精品无吗乱吗av国产爱色| 欧美国产日韩一区二区| 日韩综合久久| 色一情一乱一伦一区二区三欧美| 亚洲麻豆视频| 久久人人爽人人片| 国产精品网站在线观看| 欧产日产国产69| 亚洲精品一线二线三线| 在线视频观看国产| 91久久中文字幕| 日韩在线精品| 中文字幕有码av| 国产午夜亚洲精品不卡| 你懂的国产视频| 亚洲第一区中文99精品| 中文字幕中文字幕在线十八区| 成人免费福利视频| 色小子综合网| 永久免费的av网站| 亚洲国产精品v| 中文字幕视频在线播放| 在线观看国产精品日韩av| 久久野战av| 日韩欧美99| 日韩不卡一区二区三区| 级毛片内射视频| 色欧美日韩亚洲| 黄色毛片在线看| 国产精品高清在线| 欧美第十八页| 91 视频免费观看| 亚洲人午夜精品天堂一二香蕉| 国产又大又粗又长| 超碰91人人草人人干| 天堂久久av| 给我免费播放片在线观看| 成人网在线免费视频| 国产无码精品视频| 亚洲国产一区二区三区四区| 国模精品视频| 免费av在线一区二区| 久久不射网站| 免费黄在线观看| 欧美精品亚洲一区二区在线播放| 麻豆传媒在线完整视频| 99re在线观看视频| 99xxxx成人网| av电影网站在线观看| 欧美日韩色综合| 在线观看电影av| 精品在线不卡| 日韩二区在线观看| 国产女人18水真多毛片18精品| 欧美成人乱码一区二区三区| 欧美a级在线观看| 日韩久久不卡| 国产一区二区在线看| 日韩视频免费观看高清| 亚洲最新中文字幕| 成人综合日日夜夜| 国产深夜男女无套内射| 国产日韩在线不卡| www香蕉视频| 青青精品视频播放| 93在线视频精品免费观看| 久久久男人的天堂| 色呦呦日韩精品| 国产美女在线观看| 久久99精品久久久久久三级| 蜜桃视频免费观看一区| 麻豆一区二区三区精品视频| 亚洲欧美激情一区| 久久天堂久久| 久久网站免费视频| 亚洲美女精品一区| 免费在线超碰| 成人黄色片视频网站| 日韩高清不卡一区二区三区| 免费无遮挡无码永久在线观看视频| 国产丝袜一区视频在线观看| 一区二区三区日本视频| 男人揉女人奶房视频60分| 最好看的中文字幕久久| 你懂的视频在线播放| 亚洲综合视频1区| 日韩高清欧美激情|