DiaMoE-TTS:清華 & 巨人網絡開源的多方言語音合成利器
在數字化時代,語音合成技術(TTS)發展迅速,應用廣泛。但方言和小語種在 TTS 領域面臨數據稀缺、正字法不一致、音系變化復雜等挑戰。為此,清華大學與巨人網絡聯合推出開源的多方言語音合成框架 DiaMoE-TTS,以創新技術支持方言保護和語言多樣性。
圖片
一、項目概述
DiaMoE-TTS 是一個基于國際音標(IPA)的統一框架,專門針對多方言語音合成的復雜性而設計。它在 F5-TTS 架構的基礎上,引入了方言感知的混合專家(MoE)模型來模擬不同方言之間的語音差異,并利用低秩適配器(LoRA)和條件適配器進行參數高效的自適應,從而能夠快速遷移到新的方言。與依賴大規模或專有資源的方法不同,DiaMoE-TTS 支持可擴展的開放數據驅動合成,實驗表明其能夠生成自然且富有表現力的語音,即使在只有數小時數據的情況下,也能對未見過的新方言以及專業領域(如京劇)實現零樣本性能。
圖片
二、核心功能
(一)多方言語音合成
DiaMoE-TTS 支持多種漢語方言以及普通話的語音合成,目前已涵蓋 11 種漢語方言,并計劃擴展至歐洲語言。這為方言和小語種的語音合成提供了強大的技術支持,讓這些語言能夠在數字世界中被聽見。
(二)低資源適配
許多方言由于數據稀缺,難以進行有效的語音合成建模。DiaMoE-TTS 提出了參數高效遷移(PEFT)策略,僅需微調少量參數即可完成方言擴展,而無需對龐大的主干網絡和 MoE 模塊進行重新訓練,大大降低了方言合成的技術門檻。
(三)高可擴展性
該框架完全開源,包括數據預處理、訓練和推理的完整代碼,方便研究者和開發者進行復現與擴展。這種開放性使得DiaMoE-TTS 能夠適應不斷變化的技術需求和語言環境。
(四)高自然度語音合成
通過方言感知的MoE 架構,DiaMoE-TTS 能夠根據輸入的 IPA 自動選擇最適合的專家網絡進行語音合成,從而保留每種方言的獨特音色和韻律,生成的語音自然流暢且富有表現力。
三、技術揭秘
(一)統一的IPA 前端
在多方言語音合成中,使用拼音或字符輸入常常帶來嚴重的歧義與不一致問題。DiaMoE-TTS 在前端設計中引入了國際音標(IPA)作為統一的輸入體系,將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統一的表征體系下進行訓練,保證了建模的一致性與泛化能力。
(二)方言感知MoE 架構
傳統的單一建模網絡在多方言任務下容易出現“風格平均化”,導致各地方言的特色被弱化。MoE 結構通過引入多個專家網絡,讓不同的專家專注于學習不同方言的特征;同時,動態門控機制會根據輸入 IPA 自動選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點得以保留。為了增強門控的區分能力,還加入了方言分類輔助損失,使專家網絡在訓練時能夠更有針對性地建模方言特征。
(三)低資源適配策略(PEFT)
在text embedding 層和注意力層中融入了 Conditioning Adapter 與 LoRA,僅需微調少量參數即可完成方言擴展,主干與 MoE 模塊保持凍結,從而避免對已有知識的遺忘。此外,結合音高和語速擾動等數據增強手段,顯著提升了模型在低資源條件下的合成表現。
(四)多階段訓練方法
基于F5-TTS 的成熟模型,框架首先利用 IPA 音素轉換數據進行預熱訓練,實現輸入形式的平滑過渡。接著,通過聯合訓練多個開源方言數據,激活 MoE 結構,學習共享特征并區分不同方言的發音模式。動態門控機制和方言分類輔助損失的引入,進一步優化了 MoE 的分流效果,精準捕捉每種方言的獨特韻味。對于語料稀缺的新方言,則運用 PEFT 策略結合數據增強,實現高效遷移,同時確保原有知識不被遺忘。
四、應用場景
(一)教育領域
在教育領域,DiaMoE-TTS 為方言和小語種教學提供了強大的支持。通過生成自然流暢的方言語音,它可以幫助學生更好地學習和掌握不同語言的發音,增強語言學習的趣味性和效果。無論是普通話學習還是方言傳承,DiaMoE-TTS 都能提供生動的語音示范,讓語言學習更加直觀和高效。
(二)文化保護
方言和小語種是文化多樣性的重要組成部分。DiaMoE-TTS 通過語音合成技術記錄和重現瀕臨消失的方言,為文化保護提供了有力支持。它能夠生成多種方言的語音,保留這些語言的獨特音色和韻律,幫助人們更好地理解和傳承這些珍貴的文化遺產。
(三)虛擬人與數字內容
在虛擬人和數字內容創作中,DiaMoE-TTS 可以為虛擬角色提供多樣化的方言語音,豐富虛擬角色的表現力。無論是虛擬主播、虛擬客服還是數字角色,DiaMoE-TTS 都能生成自然、富有表現力的語音,提升用戶體驗,讓虛擬角色更加生動和真實。
(四)數字文旅
在跨境交流中,DiaMoE-TTS 支持多種語言和方言的語音合成,能夠促進不同語言背景的人群之間的交流與理解。無論是國際商務、文化交流還是旅游出行,DiaMoE-TTS 都能提供自然、準確的語音合成,幫助人們跨越語言障礙,實現更有效的溝通。
(五)跨境交流
在跨境交流中,DiaMoE-TTS 支持多種語言和方言的語音合成,能夠促進不同語言背景的人群之間的交流與理解。無論是國際商務、文化交流還是旅游出行,DiaMoE-TTS 都能提供自然、準確的語音合成,幫助人們跨越語言障礙,實現更有效的溝通。
五、快速使用
(一)安裝
通過以下命令安裝DiaMoE-TTS:
# clone code
git clone https://github.com/GiantAILab/DiaMoE-TTS.git
cd DiaMoE-TTS
# conda environment
conda create -n diamoetts pythnotallow=3.10
conda activate diamoetts
cd diamoe_tts
pip install -e .(二)訓練
運行以下命令進行模型訓練:
cd diamoe_tts
accelerate launch --config_file default_config.yaml \
src/f5_tts/train/train.py \
--config-name diamoetts.yaml(三)推理
運行以下命令進行模型推理:
bash ./src/f5_tts/infer/batch_infer.sh更多詳細信息請參考[GitHub 倉庫](https://github.com/GiantAILab/DiaMoE-TTS)。
六、結語
DiaMoE-TTS 作為清華大學與巨人網絡聯合開源的多方言語音合成框架,憑借其創新的技術設計和強大的功能,為方言保護、語言多樣性以及語音合成技術的發展提供了新的思路和工具。它不僅能夠生成自然、富有表現力的語音,還能在低資源條件下快速適配新的方言,展現了極高的實用價值和應用潛力。
項目地址
GitHub 倉庫:https://github.com/GiantAILab/DiaMoE-TTS
Hugging Face 模型庫:https://huggingface.co/RICHARD12369/DiaMoE_TTS
arXiv 技術論文:https://www.arxiv.org/pdf/2509.22727



























