識(shí)別1600+種人類語言,支持少樣本擴(kuò)展到5400+種語言,Meta自動(dòng)語音識(shí)別模型開源
Meta AI發(fā)布了名為Omnilingual ASR(自動(dòng)語音識(shí)別),它能轉(zhuǎn)錄超過1600種人類語言。

這其中,有500多種語言是歷史上第一次被人工智能系統(tǒng)所理解和記錄。
語言,是文化的載體,也是溝通的橋梁。
但在數(shù)字世界里,這座橋梁長期以來只為少數(shù)強(qiáng)勢(shì)語言而架設(shè)。
全球七千多種語言中,只有極少數(shù)能夠被計(jì)算機(jī)處理,絕大多數(shù)語言和其背后的文化,都沉默在技術(shù)的陰影之下。
自動(dòng)語音識(shí)別(ASR)技術(shù),這個(gè)旨在將聲音轉(zhuǎn)化為文字的工具,本應(yīng)打破這種沉默,卻因其對(duì)海量標(biāo)注數(shù)據(jù)的依賴,反而加固了這道鴻溝。
近些年,多語言ASR的探索開始出現(xiàn)曙光。
Facebook的wav2vec 2.0利用自監(jiān)督學(xué)習(xí),讓模型能從無標(biāo)簽的音頻中自學(xué)語音的奧秘。
Google的USM(通用語音模型)更是將支持的語言數(shù)量推向了100種以上,一度成為該領(lǐng)域的標(biāo)桿。
但這些系統(tǒng),依然沒能解決根本問題。
它們的語言覆蓋范圍相對(duì)于全球語言的多樣性,仍是滄海一粟。
更關(guān)鍵的是,它們的擴(kuò)展性極差,增加一種新語言,幾乎等同于一次新的大型工程,需要數(shù)據(jù)專家和龐大的計(jì)算資源深度介入,普通社區(qū)用戶根本無從參與。
對(duì)于數(shù)據(jù)稀缺的語言,超過30%的字符錯(cuò)誤率(Character Error Rate, CER)更是常態(tài),幾乎不具備實(shí)用價(jià)值。
Omnilingual ASR的出現(xiàn),宣告了一個(gè)新時(shí)代的到來。

它不再是簡(jiǎn)單地增加支持語言的數(shù)量,而是從根本上改變了多語言ASR的構(gòu)建范式。
它讓語言的擴(kuò)展,從一個(gè)需要巨大投入的中心化工程,變成了一個(gè)社區(qū)可以驅(qū)動(dòng)、持續(xù)生長的生態(tài)系統(tǒng)。
一個(gè)模型,傾聽世界千語
Omnilingual ASR的架構(gòu)擁有一雙能聽懂世界所有聲音元音的耳朵,和一個(gè)能根據(jù)上下文靈活拼寫出任何語言的大腦。


這雙耳朵,就是它的編碼器(Encoder)。
這個(gè)編碼器基于Meta AI自家的wav2vec 2.0模型,但被前所未有地?cái)U(kuò)展到了70億參數(shù)的龐大規(guī)模。
wav2vec 2.0的核心思想是自監(jiān)督學(xué)習(xí),它并不需要人類告訴它哪個(gè)音節(jié)對(duì)應(yīng)哪個(gè)文字。
相反,它通過聆聽海量的、未被標(biāo)注的原始音頻,自己去發(fā)現(xiàn)聲音中潛在的結(jié)構(gòu)和規(guī)律。
這好比一個(gè)嬰兒,在學(xué)會(huì)說話之前,通過不斷地聽周圍人講話,逐漸形成了對(duì)語音最基本的感知。
Omnilingual ASR的編碼器,就是在430萬小時(shí)的音頻海洋中進(jìn)行這種聆聽,其中包含了1239種不同語言的聲音。
這使得它對(duì)人類語音的聲學(xué)共性,有了極為深刻的理解。
這顆大腦,就是它的解碼器(Decoder)。
Omnilingual ASR提供了兩種解碼器方案,以適應(yīng)不同場(chǎng)景的需求。
一種是CTC(聯(lián)結(jié)主義時(shí)間分類)解碼器,它結(jié)構(gòu)簡(jiǎn)單,在編碼器之上疊加一個(gè)線性層,追求極致的推理速度,非常適合需要實(shí)時(shí)轉(zhuǎn)錄的場(chǎng)景。
根據(jù)官方報(bào)告,一個(gè)3億參數(shù)的CTC模型在A100上處理30秒的音頻,其實(shí)時(shí)因子低至0.001,快到幾乎沒有延遲。
另一種,則是這次技術(shù)革命的核心,一個(gè)LLM(大語言模型)風(fēng)格的解碼器。
它采用類似GPT的Transformer架構(gòu),逐個(gè)字符地生成文本。它不像CTC那樣直接吐出結(jié)果,而是像一個(gè)作家一樣,會(huì)根據(jù)已經(jīng)寫出的部分,去思考下一個(gè)最合適的字符是什么。
這種基于上下文的生成方式,賦予了它驚人的靈活性和準(zhǔn)確性,尤其是在處理語法結(jié)構(gòu)復(fù)雜或低資源語言時(shí),表現(xiàn)遠(yuǎn)超CTC。
將強(qiáng)大的耳朵和智慧的大腦結(jié)合,Omnilingual ASR便擁有了理解多種語言的基礎(chǔ)。
但真正讓它實(shí)現(xiàn)對(duì)1600多種,乃至理論上5400多種語言支持的,是零樣本上下文學(xué)習(xí)機(jī)制。
傳統(tǒng)模型要學(xué)會(huì)一門新語言,必須用該語言的數(shù)據(jù)進(jìn)行再訓(xùn)練,調(diào)整內(nèi)部的億萬個(gè)參數(shù)。
而Omnilingual ASR的LLM解碼器模型,完全不需要這個(gè)過程。你只需要給它提供幾個(gè)范例,即幾對(duì)該新語言的音頻-文本樣本。
在推理時(shí),系統(tǒng)會(huì)進(jìn)行這樣的操作:將這些范例和你真正想要轉(zhuǎn)錄的目標(biāo)音頻,像穿糖葫蘆一樣串在一起,然后一同輸入給解碼器。
解碼器在處理前面的范例時(shí),會(huì)迅速領(lǐng)悟到這門新語言的聲音和文字之間的對(duì)應(yīng)關(guān)系,然后利用這種新學(xué)到的知識(shí),高質(zhì)量地轉(zhuǎn)錄出最后的目標(biāo)音頻。
整個(gè)過程,模型的權(quán)重參數(shù)沒有一絲一毫的改變。
為了讓這個(gè)參考過程更高效,系統(tǒng)還引入了一個(gè)名為SONAR的多語言多模態(tài)編碼器。
它能將音頻和文本都映射到一個(gè)共享的向量空間里。
當(dāng)你輸入一段目標(biāo)音頻時(shí),SONAR會(huì)迅速在樣本庫中,找到與之在聲音和語義上最相似的幾個(gè)范例。這種智能檢索,相比隨機(jī)挑選范例,能將轉(zhuǎn)錄的準(zhǔn)確率提升15%到20%。
僅僅需要3到5對(duì)樣本,Omnilingual ASR就能對(duì)一門全新的、從未見過的語言,達(dá)到可用的轉(zhuǎn)錄質(zhì)量。
這徹底拆除了多語言ASR技術(shù)擴(kuò)展的壁壘,讓語言的邊界,第一次可以由社區(qū)和用戶自己來定義。
數(shù)據(jù)是文化的火種
巧婦難為無米之炊。Omnilingual ASR這座技術(shù)大廈的基石,是其前所未有的訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的構(gòu)建過程,本身就是對(duì)過往數(shù)據(jù)采集模式的一次革新。
其核心是有標(biāo)簽語音數(shù)據(jù)集AllASR。它整合了海量的開源數(shù)據(jù)、內(nèi)部語料、合作伙伴授權(quán)數(shù)據(jù),以及專門委托采集的數(shù)據(jù),總時(shí)長達(dá)到了驚人的120,710小時(shí),覆蓋1,690種語言。
這個(gè)規(guī)模,已經(jīng)超越了以往任何一個(gè)公開的ASR數(shù)據(jù)集。
比規(guī)模更重要的,是其對(duì)待低資源語言的方式。Meta AI專門發(fā)起并構(gòu)建了一個(gè)名為Omnilingual ASR Corpus的語料庫,專注于那些最被忽視的語言。
團(tuán)隊(duì)沒有采用互聯(lián)網(wǎng)上常見的抓取模式,因?yàn)槟欠N方式只會(huì)不斷復(fù)制強(qiáng)勢(shì)語言。
他們選擇與非洲、南亞等地的本地組織合作,直接走進(jìn)語言社區(qū)。
他們招募母語者作為貢獻(xiàn)者,并為他們的勞動(dòng)支付報(bào)酬。
采集方式也并非讓人們朗讀固定的、翻譯過來的句子,而是通過開放式的提示,鼓勵(lì)他們用最自然的方式進(jìn)行獨(dú)白,講述自己的故事、生活和文化。
這樣采集到的3,350小時(shí),覆蓋348種低資源語言的語音,是鮮活的、自然的、充滿文化溫度的。
更可貴的是,Meta AI將這個(gè)Omnilingual ASR Corpus以CC-BY-4.0許可協(xié)議完全開放,任何人都可以通過Hugging Face獲取。
Omnilingual ASR在各項(xiàng)基準(zhǔn)測(cè)試中,都展現(xiàn)了與它宏大愿景相匹配的硬實(shí)力。
評(píng)估ASR性能的核心指標(biāo)是字符錯(cuò)誤率(CER),這個(gè)數(shù)字越低,代表轉(zhuǎn)錄的準(zhǔn)確性越高。
根據(jù)Meta AI的官方報(bào)告,其最強(qiáng)大的omniASR_LLM_7B模型,在超過1600種語言上都達(dá)到了當(dāng)前最先進(jìn)(SOTA)的水平。


在公開的多語言基準(zhǔn)測(cè)試FLEURS 102上,Omnilingual ASR與Google的USM等頂級(jí)模型進(jìn)行了正面比較。

Omnilingual ASR的核心創(chuàng)新,并非僅僅是參數(shù)量或數(shù)據(jù)量的堆砌,而在于范式上的突破。
它的可擴(kuò)展性是革命性的。USM和Whisper都只支持一個(gè)固定的語言集合,無法由用戶自行擴(kuò)展。
而Omnilingual ASR通過上下文學(xué)習(xí),理論上可以支持任何有少量樣本的語言,將上限提升到了5400種以上。
它將擴(kuò)展新語言的門檻,從需要頂尖AI專家的復(fù)雜工程,降低到了普通社區(qū)成員只需要提供幾段錄音和文本就能完成的任務(wù)。
它的開放性是最徹底的。
模型、數(shù)據(jù)、代碼全部開源,遵循非常寬松的許可協(xié)議。
這構(gòu)建了一個(gè)開放的生態(tài),邀請(qǐng)全世界的研究者、開發(fā)者和語言社區(qū),共同來豐富人類的數(shù)字聲音世界。
各種地方方言,少樣本即可遷移。

































