NVIDIA發(fā)布Parakeet TDT 0.6B-v2：ASR新標(biāo)桿原創(chuàng)

發(fā)布于 2025-5-7 06:57

瀏覽

0收藏

2025年5月，NVIDIA重磅發(fā)布其全新一代自動(dòng)語音識(shí)別（ASR）模型 ——Parakeet TDT 0.6B-v2。該模型具備 0.6B參數(shù)，采用CC-BY-4.0商用開源許可協(xié)議，并以實(shí)時(shí)因子（RTF）達(dá)3386 的驚人速度刷新行業(yè)紀(jì)錄，標(biāo)志著語音AI進(jìn)入一個(gè)全新的高性能、低延遲時(shí)代。

1.核心優(yōu)勢(shì)

NVIDIA發(fā)布Parakeet TDT 0.6B-v2：ASR新標(biāo)桿-AI.x社區(qū)

強(qiáng)大模型規(guī)模：600M參數(shù)的編碼-解碼結(jié)構(gòu)，結(jié)合FastConformer與Transducer Decoder Transformer (TDT) 架構(gòu)。

極速處理能力：在NVIDIA硬件上，能在1秒內(nèi)轉(zhuǎn)錄60分鐘音頻，速度超過多數(shù)ASR模型50倍以上。
領(lǐng)先的轉(zhuǎn)錄準(zhǔn)確率：在Hugging Face的Open ASR排行榜上以6.05%的詞錯(cuò)誤率（WER）位居開源模型第一。
商用許可友好：采用CC-BY-4.0許可，允許在商業(yè)項(xiàng)目中自由使用與修改。

Parakeet 的能力遠(yuǎn)不止于此。它不僅能精準(zhǔn)地還原語音內(nèi)容，還支持包括標(biāo)點(diǎn)恢復(fù)、大小寫格式化、數(shù)字規(guī)范化等在內(nèi)的多項(xiàng)語義層面的增強(qiáng)處理，使得輸出文本更符合自然語言的表達(dá)習(xí)慣，便于閱讀和進(jìn)一步的自然語言處理。在眾多實(shí)際場景中，如法律記錄、醫(yī)療語音轉(zhuǎn)寫、會(huì)議紀(jì)要等，這些細(xì)節(jié)功能往往決定了模型的實(shí)際可用性。此外，Parakeet 還創(chuàng)新性地支持“歌曲轉(zhuǎn)歌詞”的功能，拓展了其在媒體內(nèi)容處理、音樂平臺(tái)檢索等方面的潛力。

2.技術(shù)特點(diǎn)

Parakeet TDT 0.6B-v2融合了多項(xiàng)前沿優(yōu)化技術(shù)：

模型結(jié)構(gòu)：編碼器使用FastConformer，解碼器為TDT，適合并發(fā)處理和大批量推理。
推理優(yōu)化：通過 TensorRT和FP8量化技術(shù)實(shí)現(xiàn)了極致加速。
語音格式增強(qiáng)：內(nèi)建數(shù)字格式化、時(shí)間戳標(biāo)注和標(biāo)點(diǎn)修復(fù)，大幅提升可讀性。
創(chuàng)新功能：罕見支持“歌曲轉(zhuǎn)歌詞”功能，拓展至音樂和媒體應(yīng)用場景。
這一代模型不僅速度快，而且保持高準(zhǔn)確性和強(qiáng)泛化能力，在多個(gè)公開英語語音識(shí)別基準(zhǔn)（如 AMI、GigaSpeech、Earnings22、SPGISpeech）中均表現(xiàn)優(yōu)異，甚至在電話語音、噪聲環(huán)境下依然保持穩(wěn)定性能。

Parakeet TDT 0.6B-v2基于Granary的多源語音語料庫進(jìn)行訓(xùn)練，總計(jì)約 12萬小時(shí)的英語音頻，其中包括1萬小時(shí)人工標(biāo)注數(shù)據(jù)，11萬小時(shí)高質(zhì)量偽標(biāo)簽語音。數(shù)據(jù)源涵蓋LibriSpeech、Common Voice、YouTube-Commons、Librilight等。NVIDIA 計(jì)劃在2025年Interspeech大會(huì)上公開Granary語料庫，進(jìn)一步促進(jìn)語音AI領(lǐng)域的數(shù)據(jù)共享與模型復(fù)現(xiàn)。

從工程角度看，Parakeet TDT 0.6B-v2對(duì)硬件的適配也做得非常出色。雖然在高端GPU上表現(xiàn)最佳，但即使是在低至2GB內(nèi)存的設(shè)備上，也可以加載模型并運(yùn)行較小規(guī)模的任務(wù)。這種靈活性使其既適合大型云平臺(tái)的批量轉(zhuǎn)寫需求，也能服務(wù)于邊緣設(shè)備上的實(shí)時(shí)語音識(shí)別。

3.術(shù)語

在理解 Parakeet TDT 0.6B-v2 的技術(shù)優(yōu)勢(shì)時(shí)，可能會(huì)遇到一些專業(yè)術(shù)語。為了方便讀者深入了解，簡要解釋幾個(gè)核心概念：

FastConformer編碼器是一種高效的語音建模架構(gòu)，它融合了Transformer 的全局注意力機(jī)制與卷積網(wǎng)絡(luò)的局部建模能力，能在保證準(zhǔn)確率的同時(shí)提升處理長語音的速度和效率。

Transducer Decoder Transformer（TDT）架構(gòu)則結(jié)合了傳統(tǒng)Transducer 在流式語音識(shí)別中的高效性和Transformer在語言理解中的優(yōu)勢(shì)，使模型既能快速響應(yīng)，又不失上下文的理解能力。

最后，RTF（Real-Time Factor）實(shí)時(shí)因子是衡量語音識(shí)別速度的一個(gè)指標(biāo)。RTF = 1表示模型剛好可以實(shí)時(shí)識(shí)別音頻，而 Parakeet實(shí)現(xiàn)的 RTF = 3386，意味著它能以 3386 倍于音頻實(shí)際長度的速度完成識(shí)別，代表了當(dāng)前開源模型中的極致速度。

本文轉(zhuǎn)載自???魯班模錘???，作者：龐德公

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

NVIDIA

ASR

語音

贊

回復(fù)