精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌為1000+「長尾」語言創建機器翻譯系統,已支持部分小眾語言

人工智能 新聞
當今世界上有 7000 多種語言,其中只有大約 100 種具有機器翻譯系統,那其他語言怎么辦呢?谷歌正在為這些小眾語言創建通用的機器翻譯系統。

過去十年,學術和商業機器翻譯系統(MT)的質量已經得到了大幅度的提升。這些提升很大程度上得益于機器學習的進展和可用的大規模 web 挖掘數據集。同時,深度學習(DL)和 E2E 模型的出現、從 web 挖掘得到的大型并行單語言數據集、回譯和自訓練等數據增強方法以及大規模多語言建模等帶來了能夠支持超過 100 種語言的高質量機器翻譯系統。

然而,雖然低資源機器翻譯出現了巨大進展,但已經構建廣泛可用且通用的機器翻譯系統的語言被限制在了大約 100 種,顯然它們只是當今全世界使用的 7000 多種語言中的一小部分。除了語言數量受限之外,當前機器翻譯系統所支持的語言的分布也極大地向歐洲語言傾斜。

我們可以看到,盡管人口眾多,但非洲、南亞和東南亞所說的語言以及美洲土著語言相關的服務卻較少。比如,谷歌翻譯支持弗里西亞語、馬耳他語、冰島語和柯西嘉語,以它們為母語的人口均少于 100 萬。相比之下,谷歌翻譯沒有提供服務的比哈爾方言人口約為 5100 萬、奧羅莫語人口約為 2400 萬、蓋丘亞語人口約為 900 萬、提格里尼亞語人口約為 900 萬(2022 年)。這些語言被稱為「長尾」語言,數據缺乏需要應用一些可以泛化到擁有充足訓練數據的語言之外的機器學習技術。

構建這些長尾語言的機器翻譯系統在很大程度上受到可用數字化數據集和語言識別(LangID)模型等 NLP 工具缺失的限制。這些對高資源語言來說卻是無處不在的。

在近日谷歌一篇論文《Building Machine Translation Systems for the Next Thousand Languages》中,二十幾位研究者展示了他們努力構建支持超過 1000 種語言的實用機器翻譯系統的成果。

論文地址:https://arxiv.org/pdf/2205.03983.pdf

具體而言,研究者從以下三個研究領域描述了他們的成果。

第一,通過用于語言識別的半監督預訓練以及數據驅動的過濾技術,為 1500 + 語言創建了干凈、web 挖掘的數據集。

第二,通過用于 100 多種高資源語言的、利用監督并行數據訓練的大規模多語言模型以及適用于其他 1000+ 語言的單語言數據集,為服務水平低下的語言創建了切實有效的機器翻譯模型。

第三,研究這些語言的評估指標存在哪些局限,并對機器翻譯模型的輸出進行定性分析,并重點關注這類模型的幾種常見的誤差模式。

對于致力于為當前研究不足的語言構建機器翻譯系統的從業者,研究者希望這項工作可以為他們提供有用的洞見。此外,研究者還希望這項工作可以引領人們聚焦那些彌補數據稀疏設置下大規模多語言模型弱點的研究方向。

在 5 月 12 日的 I/O 大會上,谷歌宣布自家的翻譯系統新增了 24 種新的語言,其中包括一些小眾的美洲原住民語言,比如前文提到的比哈爾方言、奧羅莫語、蓋丘亞語和提格里尼亞語。

論文概述

這項工作主要分為四大章節展開,這里只對每個章節的內容進行簡要介紹。

創建一個 1000-language 的 web 文本數據集

本章詳細介紹了研究者在為 1500 + 語言爬取單語言文本數據集的過程中采用的方法。這些方法重點在于恢復高精度數據(即高比例的干凈、語言內文本),因此很大一部分是各種各樣的過濾方法。

總的來說,研究者采用的方法包括如下:

  • 從 LangID 模型中刪除訓練數據質量和 LangID 性能差的語言,并訓練一個 1629-language 的 CLD3 LangID 模型和半監督 LangID(SSLID)模型;
  • 按語言在 CLD3 模型中的誤差率進行聚類操作;
  • 使用 CLD3 模型執行第一輪 web 爬取;
  • 使用文檔一致性過濾句子;
  • 使用百分比閾值字列表過濾所有語料庫;
  • 使用半監督 LangID(SSLID)過濾所有語料庫;
  • 使用相對召回率檢測異常值語言,并使用詞頻 - 逆文檔頻率(Term-Frequency-Inverse-Internet-Frequency, TF-IIF)進行過濾;
  • 使用 Token-Frequency Anomalousness 分數檢測異常值語言,并為它們手動設計過濾器;
  • 在句子層面對所有語料庫進行消重操作。

如下為使用 1745-language 的 CLD3 LangID 模型在 web 文本上的文檔一致性得分直方圖。

下表 2 為低資源語言(LRL)完整數據集的單語言數據、用于訓練模型的部分單語言數據以及包括高資源語言在內的完整訓練集的單語言數據統計。

章節目錄如下:

為長尾語言構建機器翻譯模型

對于從 web 挖掘的單語言數據,下一個挑戰是從數量有限的單語言訓練數據中創建高質量的通用機器翻譯模型。為此,研究者采用了這樣一種實用方法,即利用所有可用于更高資源語言的并行數據來提升只有單語言數據可用的長尾語言的質量。他們將這一設置稱為「零資源」(zero-resource),這是因為長尾語言沒有直接的監督。

研究者利用過去幾年為機器翻譯開發的幾種技術來提升長尾語言零資源翻譯的質量。這些技術包括從單語言數據中進行自監督學習、大規模多語言監督學習、大規模回譯和自訓練、高容量模型。他們利用這些工具創建了能夠翻譯 1000 + 種語言的機器翻譯模型,并利用現有覆蓋大約 100 種語言的并行語料庫和從 web 中構建的 1000-language 的單語言數據集。

具體地,研究者首先通過比較 15 億和 60 億參數 Transformers 在零資源翻譯上的性能來強調模型容量在高度多語言模型中的重要性(3.2),然后將自監督語言的數量增加到 1000 種,驗證了隨著來自相似語言中更多單語言數據變得可用,大多數長尾語言的性能也相應提高(3.3)。雖然研究者的 1000-language 模型表現出了合理的性能,但為了了解使用方法的優點和局限性,他們融入了大規模數據增強。

此外,研究者通過自訓練和回譯對包含大量合成數據的 30 種語言的子集上的生成模型進行微調(3.4)。他們進一步描述了過濾合成數據的實用方法以增強這些微調模型對幻覺(hallucinations)和錯誤語言翻譯的穩健性(3.5)。

研究者還使用序列級蒸餾將這些模型提煉成更小、更易于推理的架構,并強調了教師和學生模型之間的性能差距(3.6)。

章節目錄如下:

評估

為了評估自己的機器翻譯模型,研究者首先將英文句子翻譯成了這些語言,為選擇的 38 種長尾語言構建了一個評估集(4.1)。他們強調了 BLEU 在長尾設置中的局限性,并使用 CHRF 評估這些語言(4.2)。

研究者還提出了一個近似的、基于往返(round-trip)翻譯的無參考指標,用來了解模型在參考集不可用的語言上的質量,并報告了以該指標衡量的模型的質量(4.3)。他們對模型在 28 種語言的子集上進行人工評估并報告了結果,確認可以按照文中描述的方法構建有用的機器翻譯系統(4.4)。

為了了解大規模多語言零資源模型的弱點,研究者在幾種語言上進行了定性誤差分析。結果發現,模型經常混淆在分布上相似的單詞和概念,比如「老虎」變成了「小型鱷魚」(4.5)。并且在更低資源的設置下(4.6),模型翻譯 tokens 的能力在出現頻率降低的 tokens 上下降。

研究者還發現,這些模型通常無法準確地翻譯短的或者單個單詞輸入(4.7)。對提煉模型的研究結果表明,所有模型都更有可能放大訓練數據中存在的偏見或噪聲(4.8)。

章節目錄如下:

額外的實驗和注釋

研究者對上述模型進行了一些額外的實驗,表明它們在相似語言之間直接進行翻譯通常效果更好,而不使用英語作為支點(5.1),并且它們可以用于不同 scripts 之間的零樣本音譯(5.2)。

他們描述了一種將終端標點符號附加到任何輸入的實用技巧,稱為「句號技巧」(period trick),可以用它來提升翻譯質量(5.3)。

此外,研究者還證明了這些模型對一些而不是所有語言的非標準 Unicode 字形使用都是穩健的(5.4),并探索了幾種 non-Unicode 字體(5.5)。

章節目錄如下:

想要了解更多研究細節,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-11 22:05:22

機器翻譯谷歌AI

2020-10-27 14:34:42

算法MIT機器翻譯

2020-04-27 10:37:53

機器翻譯腦機接口腦波

2020-12-14 09:22:55

AI 數據人工智能

2023-02-28 12:38:22

谷歌數據集機器翻譯

2024-02-06 17:57:06

Go語言任務

2023-03-03 15:32:21

few-shot大語言模型

2017-11-21 11:05:29

谷歌操作系統Swift

2019-10-12 13:36:43

機器學習人工智能計算機

2020-06-04 09:22:46

谷歌AI翻譯

2014-11-17 15:51:57

機器翻譯應用

2023-07-28 14:43:33

語言Pony編碼

2023-05-11 06:59:40

谷歌AI 聊天機器人

2014-06-23 09:49:32

Go語言Android谷歌

2017-03-22 12:39:33

人工智能機器翻譯

2017-08-21 16:00:14

機器學習機器翻譯

2011-09-15 10:26:08

2017-10-17 14:35:50

谷歌

2020-10-28 10:38:08

谷歌模型機器翻譯

2022-06-13 08:55:01

aardio項目開發
點贊
收藏

51CTO技術棧公眾號

自拍偷拍亚洲色图欧美| 欧美综合一区第一页| 天天干天天色天天干| 污污的视频在线观看| 成人动漫一区二区| 欧洲美女7788成人免费视频| 超碰97av在线| 动漫av一区| 色婷婷av一区二区三区软件| 亚洲精品日韩精品| 超碰在线人人干| 亚洲欧美日韩一区在线观看| 中文字幕国产精品久久| 国产精品成人免费一区久久羞羞| 午夜激情在线播放| 亚洲欧美在线视频观看| 狠狠色伊人亚洲综合网站色| 中文字幕二区三区| 亚洲日本黄色| 日韩视频在线观看免费| v天堂中文在线| 性欧美video另类hd尤物| 亚洲一区二区三区四区五区中文 | 狠狠狠色丁香婷婷综合激情 | 国产免费拔擦拔擦8x高清在线人| 久久九九99视频| 成人情视频高清免费观看电影| 国产精品va无码一区二区三区| 亚洲精品国产成人影院| 亚洲色图av在线| 日本xxxx免费| 婷婷激情成人| 日本高清不卡在线观看| 天堂8在线天堂资源bt| 视频免费一区| 久久久久久久精| 91久久大香伊蕉在人线| 最新中文字幕免费| 另类亚洲自拍| 国内精品久久久| 午夜精品福利在线视频| 日本不卡高清| 亚洲人午夜精品| 国产极品一区二区| 日韩精品中文字幕一区二区| 欧美日韩成人综合在线一区二区| 日韩欧美xxxx| 亚洲一区资源| 午夜精品久久久久久久| 日韩av中文字幕第一页| 天堂av最新在线| 亚洲乱码精品一二三四区日韩在线| 日韩久久久久久久| 国产视频三级在线观看播放| 91亚洲永久精品| 国产精品视频免费一区二区三区 | 国内老司机av在线| 亚洲精品中文字幕乱码三区| 国产女人18毛片| 麻豆网站在线看| 亚洲免费电影在线| 永久免费看av| 国产成人在线视频免费观看| 亚洲欧洲在线观看av| 正在播放91九色| 欧美精品日韩少妇| 亚洲欧美日韩国产成人精品影院| 在线看视频不卡| 黄色网址在线免费观看| 亚洲色图20p| 日本高清视频免费在线观看| 免费污视频在线| 亚洲福利国产精品| 九色在线视频观看| 日韩高清在线| 欧美日韩在线免费视频| 欧美一级特黄aaa| 国内精品视频| 精品国产91洋老外米糕| 中文字幕一区二区人妻在线不卡| 免费成人高清在线视频theav| 亚洲人成啪啪网站| 俄罗斯毛片基地| 久久久五月天| 欧美极品美女视频网站在线观看免费 | 国产美女精品视频免费播放软件| 日韩一区二区三区四区| www国产视频| 九九综合九九| 日韩性生活视频| 久久久久久久国产视频| 夜夜嗨一区二区| 国产精品久久中文| 国产浮力第一页| 久久综合999| 亚洲精品视频一二三| 午夜激情在线| 色哟哟一区二区三区| 最新天堂中文在线| 久久狠狠久久| 中文字幕自拍vr一区二区三区| 精品国产欧美日韩不卡在线观看| 亚洲精品欧美| 国产精品日日做人人爱| 天堂网2014av| 国产精品乱人伦中文| www污在线观看| 国产一区二区三区朝在线观看| 欧美二区在线观看| 亚洲国产欧美视频| 欧美国产专区| 国产精品igao视频| 亚洲精品视频专区| 中文字幕免费不卡| 99视频在线免费播放| vam成人资源在线观看| 日韩精品视频免费专区在线播放| 美女福利视频网| 亚洲一区欧美二区| 91传媒在线免费观看| 成人在线观看网站| 午夜久久久影院| 欧美激情第四页| 综合亚洲自拍| 久久久久久高潮国产精品视| 在线免费观看高清视频| 久久免费美女视频| 日韩欧美不卡在线| 久久综合给合| 色噜噜狠狠狠综合曰曰曰88av| 五月天婷婷网站| 狠狠色丁香久久婷婷综合丁香| 欧美一区二区视频17c| 深夜国产在线播放| 在线不卡中文字幕| 国产欧美一区二区三区在线观看视频| 99国产精品视频免费观看一公开 | 精品无人区太爽高潮在线播放 | 中文字幕一区视频| 国产一区二区视频免费在线观看 | 91精品国产欧美一区二区成人| 国产精品久久AV无码| 午夜欧美理论片| 亚洲自拍偷拍网址| 免费大片黄在线观看视频网站| 91黄视频在线观看| 国产色视频一区二区三区qq号| 国产综合视频| 999国产在线| av网址在线| 91精品国产高清一区二区三区蜜臀| 亚洲无人区码一码二码三码的含义| 亚洲每日更新| 精品国产_亚洲人成在线| 草美女在线观看| 精品国产免费一区二区三区香蕉| 欧美成人精品欧美一级私黄| 国产美女视频91| 国产资源第一页| 日韩中文字幕| 久久久久中文字幕2018| 蜜桃视频在线观看www| 亚洲观看高清完整版在线观看| 伊人av在线播放| 欧美1区视频| 成人欧美一区二区三区视频xxx| 国产成人无吗| 日韩精品在线一区二区| 久久综合色综合| 成人av先锋影音| 欧美丰满熟妇bbbbbb百度| 丝袜美腿一区二区三区动态图| 97av在线影院| 麻豆导航在线观看| 精品视频一区三区九区| www.av免费| 成人一区在线观看| 毛片av免费在线观看| av在线不卡免费观看| 国产日韩欧美影视| 日韩伦理av| 日韩国产在线播放| 免费一级a毛片| 亚洲日本欧美天堂| 国产xxxx视频| 久久福利毛片| 9999在线观看| 国产伦精品一区二区三区免费优势| 欧美性在线视频| 在线观看麻豆蜜桃| 精品少妇一区二区三区| 亚洲精品一区二三区| 亚洲色欲色欲www| 国产黄色三级网站| 老司机午夜精品99久久| 久久成人福利视频| 不卡在线一区二区| 91久久精品国产| 欧美裸体视频| 日韩最新在线视频| 欧美特黄一级视频| 欧美四级电影网| 国产亚洲第一页| 国产视频视频一区| 深夜视频在线观看| 久久精品国产99| 国产日韩av网站| 日韩在线第七页| 精品国产一区二区三区麻豆小说| 91精品国产经典在线观看| 九九九热精品免费视频观看网站| 毛片免费在线| 精品sm在线观看| 中文字幕欧美色图| 懂色av一区二区三区| 私库av在线播放| 欧美国产欧美综合| 强迫凌虐淫辱の牝奴在线观看| 激情综合一区二区三区| 免费看的黄色大片| 国产精品v亚洲精品v日韩精品| 日韩欧美视频第二区| 欧美1区二区| 99在线观看| 四虎成人精品一区二区免费网站| 秋霞av国产精品一区| 三级福利片在线观看| 日韩在线视频中文字幕| 黄色在线视频观看网站| 亚洲精品电影网在线观看| 在线免费观看日韩视频| 日本久久精品电影| 青青国产在线观看| 亚洲国产精品久久久男人的天堂| 成人自拍小视频| 中文在线一区二区| 国产亚洲精品熟女国产成人| av一区二区久久| aaaaa黄色片| 国产河南妇女毛片精品久久久| 亚洲福利精品视频| 丝袜美腿成人在线| 国产1区2区在线| 国产乱码精品| 精品国产免费av| 日韩视频一区| 美女日批免费视频| 亚洲每日更新| 女人天堂av手机在线| 亚洲青色在线| 成年人网站免费视频| 亚洲免费大片| 久久成人免费观看| 国产欧美成人| 无码aⅴ精品一区二区三区浪潮| 亚洲精品激情| 亚洲 高清 成人 动漫| 午夜在线观看免费一区| 久久美女福利视频| 视频一区中文字幕国产| 日韩不卡一二三| 蜜乳av一区二区| 亚洲网中文字幕| 国产一区二区三区在线观看精品| 自拍一级黄色片| 免费在线观看视频一区| 日韩欧美亚洲另类| 国产一区二区精品久久| 在线观看免费视频黄| av亚洲精华国产精华| 少妇光屁股影院| 国产精品色哟哟网站| 三级黄色免费观看| 亚洲综合在线第一页| 日韩 国产 在线| 一本大道av伊人久久综合| 波多野结衣网站| 欧美男生操女生| 性生交大片免费看女人按摩| 亚洲第一区中文99精品| 欧美大片aaa| 中文字幕亚洲欧美| 四虎影院观看视频在线观看 | 久久久久久久久四区三区| 亚洲欧美tv| 一区二区日本| 在线欧美三区| 激情综合网俺也去| 国产成人午夜电影网| 极品粉嫩小仙女高潮喷水久久| 国产日韩一级二级三级| 美女的奶胸大爽爽大片| 精品日韩中文字幕| 在线观看中文字幕av| 精品福利在线导航| 国产高清av在线| 久久91精品国产91久久久| 日韩精品极品| 成人午夜在线观看| 欧美激情影院| 午夜在线视频免费观看| 在线视频日韩| 99九九99九九九99九他书对| 99久久综合99久久综合网站| 国产传媒在线看| 亚洲高清中文字幕| 国产又粗又猛又爽| 亚洲另类激情图| 91精品久久久久久粉嫩| 国产精品成人av在线| 6080成人| 亚洲午夜在线观看| 亚洲欧美卡通另类91av| 99热这里只有精品2| 日本一区二区三级电影在线观看| 精品在线视频观看| 欧美久久久久久久久久| 久蕉依人在线视频| 久久人91精品久久久久久不卡| 亚洲精品第一| 欧美在线一区二区三区四区| 国内精品99| 四虎国产精品永久免费观看视频| 亚洲国产精品av| 久久亚洲精品石原莉奈| 精品免费日韩av| а√资源新版在线天堂| 国产suv精品一区二区三区88区| 99国产精品免费网站| 91九色国产ts另类人妖| 麻豆一区二区99久久久久| 真人bbbbbbbbb毛片| 亚洲一区二区三区中文字幕| 91成人在线免费| 亚洲视频在线观看免费| 日韩激情电影| 国产日本一区二区三区| 韩国自拍一区| 永久看看免费大片| 亚洲男人的天堂在线观看| 国产又粗又黄又爽视频| 中文字幕亚洲一区在线观看 | 五月婷婷久久久| 久久久久久久久综合| 在线播放一区二区精品视频| 亚洲一区二区三区涩| 免费高清视频精品| 日本二区在线观看| 欧美在线观看禁18| 国产私拍精品| 国产欧美精品久久久| 日韩成人a**站| 三上悠亚在线一区二区| 中文字幕在线观看不卡视频| 国产精品探花视频| 日韩中文第一页| 成人污版视频| 欧美少妇一级片| 国产精品亚洲人在线观看| www青青草原| 精品国产a毛片| 日产福利视频在线观看| 欧美精品在线一区| 日韩av一级电影| 欧美另类69xxxx| 4438亚洲最大| 色女人在线视频| 九九九九九精品| 久久中文欧美| 久久精品日韩无码| 欧美成人女星排名| 国产无遮挡裸体视频在线观看| 久久久精品有限公司| 久久只有精品| 无码黑人精品一区二区| 日韩欧美色综合网站| 24小时免费看片在线观看| 精品日韩美女| 人人精品人人爱| √天堂中文官网8在线| 精品久久国产字幕高潮| 涩涩视频在线免费看| 色狠狠久久av五月综合|| 狠狠色2019综合网| 日本视频免费在线| 伊人久久男人天堂| 久久伊人久久| 爱福利视频一区二区| 国产精品久久久久久久久免费丝袜| 国产日产亚洲系列最新| 91国内免费在线视频| 成人av动漫在线观看| 亚洲精品成人无码毛片| 欧美日韩另类字幕中文| 午夜免费视频在线国产| 国产精品免费一区二区三区观看| 久久久久久夜| 中国毛片直接看| 亚洲欧洲av一区二区| 精品视频一区二区三区|