StepFun開源“全球首個”音頻編輯模型:用文字控制聲音情緒
音頻編輯一直是個技術活。專業軟件復雜,學習成本高,普通人想做點音頻內容,門檻不低。
StepFun AI剛剛開源“全球首個”音頻編輯模型Step-Audio-EditX。
核心想法很直接:用文字控制音頻。想讓AI說話時帶點情緒?寫個提示詞。想加點呼吸聲、笑聲?也是文字指令搞定。不用再在復雜界面里調各種參數,這確實是個進步。
具體能做什么?情感控制支持憤怒、開心、悲傷、興奮等十幾種狀態,說話風格可以調成撒嬌、老人、小孩、耳語等。副語言元素更細致,呼吸、笑聲、嘆氣、疑問語氣,總共10種類型都能精確控制。想要四川話或粵語?在文本前加個標簽就行。
技術細節上,3B參數的統一架構,支持中英文及多種方言的零樣本語音合成。零樣本意味著不需要提前訓練特定人的聲音數據,直接就能生成或編輯。Apache 2.0開源協議,單張GPU就能跑,12GB顯存足夠。

模型架構分三部分:雙碼本音頻分詞器負責把音頻轉成離散token,音頻LLM生成token序列,音頻解碼器再把token還原成音頻波形。整個流程用了SFT和PPO訓練,支持迭代式編輯。

從對比數據看,在零樣本克隆和情感控制上,Step-Audio-EditX確實比MinV2-nd、Double TTS 2.0等模型表現更好。數字很漂亮,但真正的考驗在實際使用中。
部署也不復雜。Python 3.10以上,PyTorch 2.4.1,CUDA支持。提供了Docker鏡像,還有Web demo和命令行工具。想省顯存的話,支持INT8和INT4量化,降低硬件要求。
"vibe一切"正在各個領域蔓延。圖像生成如此,視頻生成如此,現在輪到音頻。傳統的模塊化流水線被統一模型替代,復雜參數被自然語言指令取代。門檻在降低,而拉開差距的就剩下了“創意”。
項目地址:
- 模型:https://modelscope.cn/collections/Step-Audio-a47b227413534a
- GitHub:https://github.com/stepfun-ai/Step-Audio-EditX
- 在線演示:https://stepaudiollm.github.io/step-audio-editx/
本文轉載自??AI工程化??,作者:ully

















