李沐B站更新了!教你手搓語音大模型,代碼全開源還能在線試玩
這一天,辣個男人終于回想起……他的小破站賬號?。ɑ罹靡姡?/span>
李沐老師終于帶著他的手搓語音大模型教程回歸了….

本期視頻不講論文,李沐老師來手把手教大家怎樣玩轉他們團隊最新研發的Higgs Audio V2模型,不僅能處理文本,還能同時理解并生成語音。
除了一些常規語音任務外,這個模型還具備一些較為罕見的能力,比如生成多種語言的自然多說話人對話、旁白過程中的自動韻律調整、使用克隆聲音進行旋律哼唱以及同時生成語音和背景音樂。
整個過程堪稱“大力出奇跡”,直接將1000萬小時的語音數據整合到LLM的文本訓練,讓它能聽也能說。(當然還有億點點細節)

粗暴,但有效!
鬼畜視頻?人力手搓已經OUT了,李沐老師直接用算力幫大伙搞定,效果be like:

網友:醒醒,開組會了。

沐導今日組會內容速記
傳統的語音和文本模型之間相互獨立,李沐老師就想,欸,能不能將兩者結合起來,直接讓LLM用語音進行溝通。
那么首先就要知道文本語言模型的本質是用給定的一段指令去生成預測結果,就是將任務先拆解為系統指令(system)、用戶輸入(user)、模型回復(assistant)三個部分。
system告訴模型,需要做什么事情,例如回答該問題、寫一段文字或者其他,user就是告知事情的詳細內容,例如問題具體是什么、文字要什么風格。
所以如果要讓模型支持語音,就需要為模型增加一個系統命令,在user里輸入要轉錄為語音的文字,讓模型從system里輸出對應語音數據。
這樣語音任務就能轉換成相同的處理格式,直接打通語音和文本之間的映射,通過追加更多的數據和算力,直接scaling law“大力出奇跡”。

這就引出了新的問題,語音信號本質是連續的,要如何才能在離散的文本token中表示呢?
現有的方法是將一秒的語音信號裁切成多段(如100毫秒一段),為每一段匹配最相似的預定義模板(如45個模板),然后將其表示為長度為10的編號序列,也就是一個個token。
但這樣做,雖然可以將一小時的音頻從60兆壓縮到0.16兆,但質量相當糟糕,所以需要優先保留語音的語義信息,而聲學信號只保留少量部分,后續再通過其他手段還原。
于是他們訓練了一個統一的離散化音頻分詞器,以每秒25幀的速度運行,同時保持甚至提高音頻質量,以捕獲語義和聲學特征。

然后要讓模型很好地理解和生成聲音,就需要利用模型的文本空間,將語音的語義盡量地映射回文本,當中需要大量的數據支持。
由于版權問題,沐導沒有使用B站或YouTube這類公開視頻網站數據,而是購買或從允許抓取的網站獲取。
這樣得到的數據質量參差不齊,需要刪除其中的90%才能滿足1000萬小時的訓練數據需求。
其次,將語音對話表示為相應的system(場景描述、聲學特征、人物特征等)、user(對話文本)、assistant(對應音頻輸出)的形式。
由于OpenAI和谷歌一向禁止使用他們的模型輸出再訓練,且訓練成本過高,為了實現這種標注,他們利用相同的模型架構額外訓練出一個語音模型AudioVerse。
該模型接收用戶語音輸入,分析并輸出場景、人物、情緒、內容等信息,再將輸出反過來作為生成模型的system提示和user輸入,實現模型的共同進步。
舉個例子就是,如果想要教一個徒弟同時會拳腳功夫,但師傅一次又教不了,那就同時教兩個徒弟,一個學打拳,一個學踢腿,然后讓他們倆天天互相打,打著打著兩個就都會拳腳功夫了。

最終,這個多模態模型就完成了,不僅可以完成簡單的文本轉語音,還能實現更復雜的任務,比如讓它寫一首歌并唱出來,再加上配樂。
還能根據語音分析場景、人物(性別、年齡、情緒狀態)、環境音(室內外),并進行復雜的理解和推理。
在實時語音聊天上,還可實現低延遲、理解情緒并表達情緒的自然語音交互,而不僅僅是機械的問答。
在EmergentTTS-Eval基準上,相較于其他模型,性能可以說是遙遙領先,尤其是在“情緒”和“問題”類別中,相比GPT-4o-mini-tts高出了75.7%和55.7%的勝率。
此外,它在Seed-TTS Eval和情感語音數據集 (ESD) 等傳統TTS基準測試中也取得了最佳性能。

那么,我們能玩嗎?相信同學們都已經躍躍欲試了。
放心,沐導都包圓了,模型代碼都已全部發布在GitHub上(可點擊文末鏈接獲取~),并提供了在線試玩平臺和Hugging Face版本。

想要安裝在自己電腦上的同學,需要準備好GPU版Pytorch,或使用media驅動提供的Docker簡化安裝,readme里還有一些語音樣例(包含文本和對應的音頻),大家可以自行體驗學習。
尤其是喜歡搞搞鬼畜視頻、虛擬主播的同學們,這個模型一定要試試,它可以直接復制特定人物的聲音。
不過溫馨提醒,生成特定場景的文本時,最好提供類似場景中人物說話的語音信息(例如吵架、放松、大笑的語音),可以更好地進行聲紋克隆嗷~
斷更的日子里,沐導干嘛去了?
在小破站消失的這段時間里,沐導也沒閑著,他創業的公司正在如火如荼先后推出多項新產品。
但還是先給不了解沐導的新同學們,簡單介紹一下沐導和他的公司Boson AI。

李沐其人,小破站AI科普只是副業(即將達成百萬粉絲成就,同學們點點關注,沖鴨?。韭氝€是個正兒八經的AI技術專家。(小聲說:我們量子位在B站也有賬號嗷~歡迎來一鍵三連)
本科畢業于上海交大,曾在百度擔任高級研究員,卡耐基梅隆大學博士畢業后成為亞馬遜的資深首席科學家,現在又和自己的導師一起創辦了人工智能公司Boson.ai。
開發了著名的深度學習框架MXNet,還是那本AI必讀經典《動手學深度學習》的作者之一。

其創辦的Boson.ai主要涉及LLM研發,早前推出的開源模型Higgs - Llama - 3 - 70B,基于Llama 3打造,做了完整的SFT、RLHF,不僅能在復雜角色扮演任務上表現優異,在通用領域的指令遵循和推理方面也頗具競爭力。

今年4月,Boson.ai還推出了Higgs Audio Understanding和Higgs Audio Generation兩個工具,可以為不同音頻理解和生成需求構建定制AI Agent。
5月份,還發布了一個專門設計用于評估 TTS 系統在復雜場景下表現的綜合基準——EmergentTTS-Eval,涵蓋情感表達、非語言線索、語法復雜性等六個關鍵維度的挑戰場景,并采用 “模型即評判者” 的創新評估框架。
……
只能說,沐導人是真忙,還愿意抽空來教同學們手搓新玩具,淚目TT
所以,沐導咱下一個視頻什么時候發呀?(doge)
視頻教程:https://www.bilibili.com/video/BV1LGbozkEDY/?spm_id_from=333.337.search-card.all.click&vd_source=4075efdd29cbc7a407952a778f815fd3
模型代碼:https://github.com/boson-ai/higgs-audio



































