NVIDIA發(fā)布Parakeet TDT 0.6B-v2:ASR新標(biāo)桿 原創(chuàng)
2025年5月,NVIDIA重磅發(fā)布其全新一代自動(dòng)語音識(shí)別(ASR)模型 ——Parakeet TDT 0.6B-v2。該模型具備 0.6B參數(shù),采用CC-BY-4.0商用開源許可協(xié)議,并以 實(shí)時(shí)因子(RTF)達(dá)3386 的驚人速度刷新行業(yè)紀(jì)錄,標(biāo)志著語音AI進(jìn)入一個(gè)全新的高性能、低延遲時(shí)代。
1.核心優(yōu)勢(shì)

強(qiáng)大模型規(guī)模:600M參數(shù)的編碼-解碼結(jié)構(gòu),結(jié)合FastConformer與Transducer Decoder Transformer (TDT) 架構(gòu)。
- 極速處理能力:在NVIDIA硬件上,能在1秒內(nèi)轉(zhuǎn)錄60分鐘音頻,速度超過多數(shù)ASR模型50倍以上。
- 領(lǐng)先的轉(zhuǎn)錄準(zhǔn)確率:在Hugging Face的Open ASR排行榜上以6.05%的詞錯(cuò)誤率(WER) 位居開源模型第一。
- 商用許可友好:采用CC-BY-4.0許可,允許在商業(yè)項(xiàng)目中自由使用與修改。
Parakeet 的能力遠(yuǎn)不止于此。它不僅能精準(zhǔn)地還原語音內(nèi)容,還支持包括標(biāo)點(diǎn)恢復(fù)、大小寫格式化、數(shù)字規(guī)范化等在內(nèi)的多項(xiàng)語義層面的增強(qiáng)處理,使得輸出文本更符合自然語言的表達(dá)習(xí)慣,便于閱讀和進(jìn)一步的自然語言處理。在眾多實(shí)際場景中,如法律記錄、醫(yī)療語音轉(zhuǎn)寫、會(huì)議紀(jì)要等,這些細(xì)節(jié)功能往往決定了模型的實(shí)際可用性。此外,Parakeet 還創(chuàng)新性地支持“歌曲轉(zhuǎn)歌詞”的功能,拓展了其在媒體內(nèi)容處理、音樂平臺(tái)檢索等方面的潛力。
2.技術(shù)特點(diǎn)
Parakeet TDT 0.6B-v2融合了多項(xiàng)前沿優(yōu)化技術(shù):
- 模型結(jié)構(gòu):編碼器使用FastConformer,解碼器為TDT,適合并發(fā)處理和大批量推理。
- 推理優(yōu)化:通過 TensorRT和FP8量化技術(shù)實(shí)現(xiàn)了極致加速。
- 語音格式增強(qiáng):內(nèi)建數(shù)字格式化、時(shí)間戳標(biāo)注和標(biāo)點(diǎn)修復(fù),大幅提升可讀性。
- 創(chuàng)新功能:罕見支持“歌曲轉(zhuǎn)歌詞”功能,拓展至音樂和媒體應(yīng)用場景。
- 這一代模型不僅速度快,而且保持高準(zhǔn)確性和強(qiáng)泛化能力,在多個(gè)公開英語語音識(shí)別基準(zhǔn)(如 AMI、GigaSpeech、Earnings22、SPGISpeech)中均表現(xiàn)優(yōu)異,甚至在電話語音、噪聲環(huán)境下依然保持穩(wěn)定性能。
Parakeet TDT 0.6B-v2基于Granary的多源語音語料庫進(jìn)行訓(xùn)練,總計(jì)約 12萬小時(shí)的英語音頻,其中包括1萬小時(shí)人工標(biāo)注數(shù)據(jù),11萬小時(shí)高質(zhì)量偽標(biāo)簽語音。數(shù)據(jù)源涵蓋LibriSpeech、Common Voice、YouTube-Commons、Librilight等。NVIDIA 計(jì)劃在2025年Interspeech大會(huì)上公開Granary語料庫,進(jìn)一步促進(jìn)語音AI領(lǐng)域的數(shù)據(jù)共享與模型復(fù)現(xiàn)。
從工程角度看,Parakeet TDT 0.6B-v2對(duì)硬件的適配也做得非常出色。雖然在高端GPU上表現(xiàn)最佳,但即使是在低至2GB內(nèi)存的設(shè)備上,也可以加載模型并運(yùn)行較小規(guī)模的任務(wù)。這種靈活性使其既適合大型云平臺(tái)的批量轉(zhuǎn)寫需求,也能服務(wù)于邊緣設(shè)備上的實(shí)時(shí)語音識(shí)別。
3.術(shù)語
在理解 Parakeet TDT 0.6B-v2 的技術(shù)優(yōu)勢(shì)時(shí),可能會(huì)遇到一些專業(yè)術(shù)語。為了方便讀者深入了解,簡要解釋幾個(gè)核心概念:
FastConformer編碼器是一種高效的語音建模架構(gòu),它融合了Transformer 的全局注意力機(jī)制與卷積網(wǎng)絡(luò)的局部建模能力,能在保證準(zhǔn)確率的同時(shí)提升處理長語音的速度和效率。
Transducer Decoder Transformer(TDT)架構(gòu)則結(jié)合了傳統(tǒng)Transducer 在流式語音識(shí)別中的高效性和Transformer在語言理解中的優(yōu)勢(shì),使模型既能快速響應(yīng),又不失上下文的理解能力。
最后,RTF(Real-Time Factor)實(shí)時(shí)因子 是衡量語音識(shí)別速度的一個(gè)指標(biāo)。RTF = 1表示模型剛好可以實(shí)時(shí)識(shí)別音頻,而 Parakeet實(shí)現(xiàn)的 RTF = 3386,意味著它能以 3386 倍于音頻實(shí)際長度的速度完成識(shí)別,代表了當(dāng)前開源模型中的極致速度。
本文轉(zhuǎn)載自???魯班模錘???,作者:龐德公

















