覆蓋近 1.5 萬個(gè)物種,谷歌 DeepMind 發(fā)布 Perch 2.0,刷新生物聲學(xué)分類檢測(cè) SOTA 原創(chuàng)
生物聲學(xué)作為連接生物學(xué)與生態(tài)學(xué)的重要工具,在生物多樣性保護(hù)與監(jiān)測(cè)中扮演著關(guān)鍵角色。早期研究多依賴模板匹配等傳統(tǒng)信號(hào)處理手段,在復(fù)雜自然聲學(xué)環(huán)境與大規(guī)模數(shù)據(jù)面前,逐漸暴露效率低下、準(zhǔn)確性不足的局限。
近年來,人工智能技術(shù)的爆發(fā)式發(fā)展推動(dòng)深度學(xué)習(xí)等方法替代傳統(tǒng)手段,成為生物聲學(xué)事件檢測(cè)與分類的核心工具。例如,基于大規(guī)模帶標(biāo)簽鳥類聲學(xué)數(shù)據(jù)訓(xùn)練的 BirdNET 模型,在鳥類聲紋識(shí)別中表現(xiàn)卓越:不僅能精準(zhǔn)區(qū)分不同物種的鳴叫,還能在一定程度上實(shí)現(xiàn)個(gè)體識(shí)別。此外,Perch 1.0 等模型通過持續(xù)優(yōu)化迭代,在生物聲學(xué)領(lǐng)域積累了豐富成果,為生物多樣性監(jiān)測(cè)與保護(hù)提供了堅(jiān)實(shí)的技術(shù)支撐。
日前,Google DeepMind 與 Google Research 聯(lián)合推出的 Perch 2.0,進(jìn)一步將生物聲學(xué)研究推向新高度。相較于前代,Perch 2.0 以物種分類為核心訓(xùn)練任務(wù),不僅納入了更多非鳥類類群的訓(xùn)練數(shù)據(jù),還采用了全新的數(shù)據(jù)增強(qiáng)策略與訓(xùn)練目標(biāo)。該模型在 BirdSET 和 BEANS 兩項(xiàng)權(quán)威生物聲學(xué)基準(zhǔn)測(cè)試中均刷新當(dāng)前 SOTA,彰顯出強(qiáng)大的性能潛力與廣闊的應(yīng)用前景。
相關(guān)研究成果以「Perch 2.0: The Bittern Lesson for Bioacoustics」為題,發(fā)表預(yù)印本于 arXiv 。

論文地址:
??https://arxiv.org/abs/2508.04665??
關(guān)注公眾號(hào),后臺(tái)回復(fù)「生物聲學(xué)」獲取完整 PDF
數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)構(gòu)建與評(píng)估基準(zhǔn)
該研究為模型訓(xùn)練整合了 4 個(gè)帶標(biāo)簽音頻數(shù)據(jù)集——Xeno-Canto 、 iNaturalist 、 Tierstimmenarchiv 和 FSD50K,共同構(gòu)成模型學(xué)習(xí)的基礎(chǔ)數(shù)據(jù)支撐。其中,如下表所示,Xeno-Canto 與 iNaturalist 是大型公民科學(xué)庫:前者通過公開 API 獲取,后者源自 GBIF 平臺(tái)標(biāo)記為研究級(jí)的音頻,二者均包含大量鳥類及其他生物的聲學(xué)錄音;Tierstimmenarchiv 作為柏林自然歷史博物館的動(dòng)物聲音檔案,同樣聚焦生物聲學(xué)領(lǐng)域;而 FSD50K 則補(bǔ)充了多種非鳥類聲音。
這四類數(shù)據(jù)共包含 14,795 個(gè)類別,其中 14,597 個(gè)為物種,其余 198 個(gè)為非物種聲音事件。豐富的類別覆蓋既保證了對(duì)生物聲學(xué)信號(hào)的深度學(xué)習(xí),又通過非鳥類聲音數(shù)據(jù)拓展了模型的適用范圍。不過,由于前三個(gè)數(shù)據(jù)集采用不同的物種分類體系,研究團(tuán)隊(duì)人工映射統(tǒng)一了類別名稱,并剔除了無法用選定頻譜圖參數(shù)表示的蝙蝠錄音,以此確保數(shù)據(jù)的一致性與適用性。

數(shù)據(jù)集摘要
考慮到不同數(shù)據(jù)源的錄音時(shí)長(zhǎng)差異極大(從不足 1 秒到超過 1 小時(shí),多數(shù)在 5–150 秒),而模型固定以 5 秒片段為輸入,研究團(tuán)隊(duì)設(shè)計(jì)了兩種窗口選取策略:隨機(jī)窗口策略在選中某條錄音時(shí)隨機(jī)截取 5 秒,雖可能包含目標(biāo)物種未發(fā)聲的片段,帶來一定標(biāo)簽噪聲,但整體處于可接受范圍;能量峰值策略則沿用 Perch 1.0 的思路,通過小波變換選出錄音中能量最強(qiáng)的 6 秒?yún)^(qū)域,再?gòu)闹须S機(jī)選取 5 秒,基于「高能量區(qū)域更可能包含目標(biāo)物種聲音」的假設(shè)提升樣本有效性——這一方法與 BirdNET 等模型的檢測(cè)器設(shè)計(jì)邏輯相通,能更精準(zhǔn)捕捉有效聲學(xué)信號(hào)。
為進(jìn)一步提升模型對(duì)復(fù)雜聲學(xué)環(huán)境的適應(yīng)能力,研究團(tuán)隊(duì)采用了 mixup 的數(shù)據(jù)增強(qiáng)變體,通過混合多條音頻窗口生成復(fù)合信號(hào):先從 Beta-二項(xiàng)分布采樣確定混合的音頻條數(shù),再通過對(duì)稱 Dirichlet 分布采樣權(quán)重,對(duì)選中的多條信號(hào)進(jìn)行加權(quán)求和并標(biāo)準(zhǔn)化增益。
與原始 mixup 不同,該方法采用多熱目標(biāo)向量而非 one-hot 向量的加權(quán)平均,確保窗口內(nèi)所有發(fā)聲(無論響度高低)都能被高置信度識(shí)別;相關(guān)參數(shù)作為超參數(shù)調(diào)優(yōu),可增強(qiáng)模型對(duì)重疊聲音的分辨能力,提升分類準(zhǔn)確性。
模型評(píng)估則依托 BirdSet 與 BEANS 兩大權(quán)威基準(zhǔn)展開。 BirdSet 包含來自美國(guó)本土、夏威夷、秘魯、哥倫比亞的 6 個(gè)全標(biāo)注聲景數(shù)據(jù)集,評(píng)估時(shí)不進(jìn)行微調(diào),直接采用原型學(xué)習(xí)分類器的輸出;BEANS 涵蓋 12 項(xiàng)跨類群測(cè)試任務(wù)(涉及鳥類、陸生與海洋哺乳動(dòng)物、無尾目及昆蟲),僅用其訓(xùn)練集訓(xùn)練線性與原型探針,同樣不調(diào)整嵌入網(wǎng)絡(luò)。
Perch 2.0:一種高性能的生物聲學(xué)預(yù)訓(xùn)練模型
Perch 2.0 的模型架構(gòu)由前端(frontend)、嵌入網(wǎng)絡(luò)(embedding model)和一組輸出頭(output heads)共同構(gòu)成,各部分協(xié)同實(shí)現(xiàn)從音頻信號(hào)到物種識(shí)別的完整流程。
其中,前端負(fù)責(zé)將原始音頻轉(zhuǎn)換為模型可處理的特征形式,其接收 32kHz 采樣的單聲道音頻,針對(duì) 5 秒長(zhǎng)的片段(含 160,000 個(gè)采樣點(diǎn)),通過 20ms 窗長(zhǎng)、 10ms 跳長(zhǎng)的處理,生成包含 500 幀、每幀 128 個(gè) mel 頻帶的 log-mel 頻譜圖,覆蓋 60Hz 到 16kHz 的頻率范圍,為后續(xù)分析提供基礎(chǔ)特征。
嵌入網(wǎng)絡(luò)采用 EfficientNet-B3 架構(gòu)——這是一款包含 1.2 億參數(shù)的卷積殘差網(wǎng)絡(luò),憑借深度可分離卷積設(shè)計(jì)最大化參數(shù)效率。相比上一版本 Perch 使用的 7,800 萬參數(shù) EfficientNet-B1,它的規(guī)模更大,以匹配訓(xùn)練數(shù)據(jù)量的增長(zhǎng)。
通過嵌入網(wǎng)絡(luò)處理后,會(huì)得到形狀為(5, 3, 1536)的空間嵌入(維度分別對(duì)應(yīng)時(shí)間、頻率和特征通道),對(duì)空間維度取均值后,可獲得 1536 維的全局嵌入,作為后續(xù)分類的核心特征。
輸出頭則承擔(dān)著具體的預(yù)測(cè)與學(xué)習(xí)任務(wù),包含 3 個(gè)部分:線性分類器將全局嵌入投影到 14,795 維的類別空間,通過訓(xùn)練促使不同物種的嵌入線性可分,提升后續(xù)適配新任務(wù)時(shí)的線性探測(cè)效果;原型學(xué)習(xí)分類器以空間嵌入為輸入,為每個(gè)類別學(xué)習(xí) 4 個(gè)原型,取原型最大激活進(jìn)行預(yù)測(cè),這一設(shè)計(jì)源自生物聲學(xué)領(lǐng)域的 AudioProtoPNet;來源預(yù)測(cè)頭是一個(gè)線性分類器,基于全局嵌入預(yù)測(cè)音頻片段的原始錄音來源,由于訓(xùn)練集包含 150 余萬條來源錄音,它通過秩為 512 的低秩投影實(shí)現(xiàn)高效計(jì)算,服務(wù)于自監(jiān)督來源預(yù)測(cè)損失的學(xué)習(xí)。

Perch 2.0 模型體系結(jié)構(gòu)
模型訓(xùn)練通過 3 個(gè)獨(dú)立目標(biāo)實(shí)現(xiàn)端到端優(yōu)化:
* 物種分類交叉熵針對(duì)線性分類器,采用 softmax 激活和交叉熵?fù)p失,對(duì)目標(biāo)類別賦予均勻權(quán)重;
* 自蒸餾機(jī)制中,原型學(xué)習(xí)分類器作為「teacher」,其預(yù)測(cè)結(jié)果指導(dǎo)「student」線性分類器,同時(shí)通過正交損失最大化原型差異,且梯度不回傳至嵌入網(wǎng)絡(luò);
* 來源預(yù)測(cè)作為自監(jiān)督目標(biāo),將原始錄音視為獨(dú)立類別訓(xùn)練,推動(dòng)模型捕捉顯著特征。
訓(xùn)練分兩階段:第一階段專注訓(xùn)練原型學(xué)習(xí)分類器(不啟動(dòng)自蒸餾,最多 300,000 步);第二階段啟動(dòng)自蒸餾(最多 400,000 步),均使用 Adam 優(yōu)化器。
超參數(shù)選擇(Hyperparameter selection)依托 Vizier 算法,第一階段搜索學(xué)習(xí)率、 dropout 率等,經(jīng)兩輪篩選確定最優(yōu)模型;第二階段增加自蒸餾損失權(quán)重繼續(xù)搜索,兩種窗口采樣方式貫穿始終。
結(jié)果顯示,第一階段偏好混合 2-5 條信號(hào),來源預(yù)測(cè)損失權(quán)重 0.1-0.9;自蒸餾階段傾向小學(xué)習(xí)率、少用 mixup,賦予自蒸餾損失 1.5-4.5 的高權(quán)重,這些參數(shù)支撐了模型性能。
Perch 2.0 的泛化能力評(píng)估:基準(zhǔn)表現(xiàn)與實(shí)用價(jià)值
Perch 2.0 的評(píng)估聚焦泛化能力,既考察其在鳥類聲景(與訓(xùn)練錄音差異顯著)、非物種識(shí)別任務(wù)(如叫聲類型識(shí)別)中的表現(xiàn),也測(cè)試向蝙蝠、海洋哺乳動(dòng)物等非鳥類類群的遷移能力。考慮到從業(yè)者常需處理少量或無標(biāo)簽數(shù)據(jù),評(píng)估核心原則是驗(yàn)證「凍結(jié)嵌入網(wǎng)絡(luò)」的有效性,即通過一次性提取特征,快速適配聚類、小樣本學(xué)習(xí)等新任務(wù)。
模型選擇階段從 3 方面驗(yàn)證實(shí)用性:
* 預(yù)訓(xùn)練分類器性能,在全標(biāo)注鳥類數(shù)據(jù)集上用 ROC-AUC 評(píng)估「開箱即用」的物種預(yù)測(cè)能力;
* 一次樣本檢索,以余弦距離衡量聚類與搜索表現(xiàn);
* 線性遷移,模擬小樣本場(chǎng)景測(cè)試適配能力。
這些任務(wù)通過幾何均值計(jì)算得分,最終 19 個(gè)子數(shù)據(jù)集的結(jié)果反映了模型真實(shí)可用性。
依托 BirdSet 與 BEANS 兩大基準(zhǔn),該研究的評(píng)估結(jié)果如下表所示,Perch 2.0 在多項(xiàng)指標(biāo)上表現(xiàn)突出,尤其 ROC-AUC 達(dá)當(dāng)前最佳,且無需微調(diào);其隨機(jī)窗口與能量峰值窗口訓(xùn)練策略性能接近,推測(cè)因自蒸餾緩解了標(biāo)簽噪聲影響。

基準(zhǔn)測(cè)試結(jié)果
總體而言,Perch 2.0 以監(jiān)督學(xué)習(xí)為核心,與生物聲學(xué)特性密切相關(guān)。 Perch 2.0 的突破表明,高質(zhì)量遷移學(xué)習(xí)無需依賴超大模型,精細(xì)調(diào)優(yōu)的監(jiān)督模型結(jié)合數(shù)據(jù)增強(qiáng)與輔助目標(biāo)即可表現(xiàn)優(yōu)異。其固定嵌入設(shè)計(jì)(無需反復(fù)微調(diào))降低了大規(guī)模數(shù)據(jù)處理成本,為敏捷建模提供可能。未來,構(gòu)建貼合實(shí)際的評(píng)估基準(zhǔn)、利用元數(shù)據(jù)開發(fā)新任務(wù)、探索半監(jiān)督學(xué)習(xí),將是該領(lǐng)域的重要方向。
生物聲學(xué)與人工智能的交匯
在生物聲學(xué)與人工智能交叉領(lǐng)域,跨類群遷移學(xué)習(xí)、自監(jiān)督目標(biāo)設(shè)計(jì)、固定嵌入網(wǎng)絡(luò)優(yōu)化等研究方向已引發(fā)全球?qū)W術(shù)界與企業(yè)界的廣泛探索。
劍橋大學(xué)團(tuán)隊(duì)開發(fā)的余弦距離虛擬對(duì)抗訓(xùn)練(CD-VAT)技術(shù),通過一致性正則化提升聲學(xué)嵌入的區(qū)分性,在大規(guī)模說話者驗(yàn)證任務(wù)中恢復(fù)了 32.5% 的等錯(cuò)誤率改進(jìn),為語音識(shí)別中的半監(jiān)督學(xué)習(xí)提供了新范式。
麻省理工學(xué)院與 CETI 合作的抹香鯨聲紋研究,通過機(jī)器學(xué)習(xí)分離出包含節(jié)奏、韻律、震顫和裝飾音的「發(fā)音字母表」,揭示其交流系統(tǒng)的復(fù)雜性遠(yuǎn)超預(yù)期——僅東加勒比抹香鯨部族就存在至少 143 種可區(qū)分的發(fā)聲組合,其信息承載能力甚至超過人類語言的基礎(chǔ)結(jié)構(gòu)。
蘇黎世聯(lián)邦理工學(xué)院研發(fā)的光聲成像技術(shù),通過負(fù)載氧化鐵納米顆粒的微膠囊突破聲學(xué)衍射極限,實(shí)現(xiàn)深層組織微血管的超分辨率成像(分辨率達(dá) 20 微米),在腦科學(xué)與腫瘤研究中展現(xiàn)出多參數(shù)動(dòng)態(tài)監(jiān)測(cè)的潛力。
同時(shí),開源項(xiàng)目 BirdNET 憑借全球 1.5 億條錄音的積累,已成為生態(tài)監(jiān)測(cè)的標(biāo)桿工具,其輕量級(jí)版本 BirdNET-Lite 可在樹莓派等邊緣設(shè)備上實(shí)時(shí)運(yùn)行,支持超過 6,000 種鳥類的識(shí)別,為生物多樣性研究提供了低成本解決方案。
日本 Hylable 公司在日比谷公園部署的 AI 鳥鳴識(shí)別系統(tǒng),通過多麥克風(fēng)陣列與 DNN 結(jié)合,實(shí)現(xiàn)聲源定位與種類識(shí)別的同步輸出,準(zhǔn)確率達(dá) 95% 以上,其技術(shù)框架已擴(kuò)展至城市綠地生態(tài)評(píng)估與無障礙設(shè)施建設(shè)領(lǐng)域。
值得關(guān)注的是,谷歌 DeepMind 的 Project Zoonomia 項(xiàng)目正通過整合 240 種哺乳動(dòng)物的基因組與聲學(xué)數(shù)據(jù),探索跨物種聲學(xué)共性的進(jìn)化機(jī)制。研究發(fā)現(xiàn),犬類愉悅吠叫的諧波能量分布(3-5 次諧波能量比 0.78±0.12)與海豚社交哨聲(0.81±0.09)高度同源,這種分子生物學(xué)層面的關(guān)聯(lián)不僅為跨物種模型遷移提供了依據(jù),更啟發(fā)了 “生物學(xué)啟發(fā)式 AI” 的全新建模路徑——將進(jìn)化樹信息融入嵌入網(wǎng)絡(luò)訓(xùn)練,從而突破傳統(tǒng)生物聲學(xué)模型的局限性。
這些探索正在讓生物聲學(xué)與人工智能的結(jié)合變得更有溫度。當(dāng)學(xué)術(shù)探索的深度遇上產(chǎn)業(yè)應(yīng)用的廣度,那些曾藏在雨林樹冠、深海暗礁里的生命信號(hào),正被更清晰地捕捉、解讀,最終化作保護(hù)瀕危物種的行動(dòng)指南,或是城市與自然和諧共生的智慧方案。
參考鏈接:
1.??https://mp.weixin.qq.com/s/ZWBg8zAQq0nSRapqDeETsQ??
2.??https://mp.weixin.qq.com/s/UdGi6iSW-j_kcAaSsGW3-A??
3.??https://mp.weixin.qq.com/s/57sXpOs7vRhmopPubXTSXQ??
掃描對(duì)應(yīng)二維碼,分領(lǐng)域獲取 2023—2024 年高質(zhì)量 AI4S 論文,內(nèi)含深度解讀報(bào)道 ??


















