精度效率雙冠王!時(shí)序預(yù)測(cè)新范式TimeDistill:跨架構(gòu)知識(shí)蒸餾,全面超越SOTA
如何在保證預(yù)測(cè)精度的同時(shí)降低計(jì)算成本,是時(shí)序預(yù)測(cè)應(yīng)用面臨的核心挑戰(zhàn)。
傳統(tǒng)的時(shí)序預(yù)測(cè)模型(如基于Transformer或CNN的復(fù)雜結(jié)構(gòu))雖在精度上表現(xiàn)卓越,但計(jì)算開銷往往難以滿足實(shí)際部署需求。而輕量級(jí)MLP(多層感知器)雖然具備較高的推理速度,卻常因建模能力不足,導(dǎo)致預(yù)測(cè)精度較低。
這引出了一個(gè)有趣的問(wèn)題:是否可以將MLP與其他先進(jìn)架構(gòu)(如Transformer和CNN)結(jié)合,以構(gòu)建一個(gè)既強(qiáng)大又高效的模型?
一個(gè)直覺的解決方案是知識(shí)蒸餾(Knowledge Distillation),通過(guò)將更大、更復(fù)雜的模型(教師模型)的知識(shí)遷移到較小、更簡(jiǎn)單的模型(學(xué)生模型),使其在提升性能的同時(shí)實(shí)現(xiàn)更高的計(jì)算效率。
近期,來(lái)自美國(guó)埃默里大學(xué)、澳大利亞格里菲斯大學(xué)等多地的華人科研團(tuán)隊(duì)聯(lián)合提出了一種跨架構(gòu)知識(shí)蒸餾(Cross-Architecture Knowledge Distillation)框架TimeDistill,將MLP作為學(xué)生模型,其他復(fù)雜先進(jìn)架構(gòu)(如Transformer和CNN)作為教師模型,通過(guò)蒸餾復(fù)雜模型的優(yōu)勢(shì)至輕量級(jí)模型,實(shí)現(xiàn)計(jì)算負(fù)擔(dān)大幅降低的同時(shí)顯著提升預(yù)測(cè)精度。
相比于教師模型,TimeDistill加快了最多7倍推理速度,降低了最多130倍參數(shù)量,同時(shí)TimeDistill還在多個(gè)數(shù)據(jù)集上展現(xiàn)了超越教師模型的SOTA表現(xiàn),為構(gòu)建高效、高精度的時(shí)序預(yù)測(cè)模型提供了全新思路。

論文鏈接:https://arxiv.org/pdf/2502.15016
通過(guò)蒸餾,TimeDistill在多個(gè)數(shù)據(jù)集上取得超越教師模型的預(yù)測(cè)精度并實(shí)現(xiàn)了最佳的效率平衡。

TimeDistill模型方法
設(shè)計(jì)思路
首先,研究人員對(duì)MLP與其他時(shí)序模型的預(yù)測(cè)模式進(jìn)行了對(duì)比分析。
研究發(fā)現(xiàn),盡管MLP的整體預(yù)測(cè)精度較低,但往往在某一部分樣本上表現(xiàn)出色,突顯了其與教師模型之間存在一定的優(yōu)勢(shì)互補(bǔ),強(qiáng)調(diào)了通過(guò)知識(shí)蒸餾向教師模型的學(xué)習(xí)互補(bǔ)知識(shí)的重要性。
為了進(jìn)一步探索需要蒸餾的時(shí)序「知識(shí)」,研究人員聚焦于兩個(gè)關(guān)鍵的時(shí)序模式:
- 時(shí)間域的多尺度模式(Multi-Scale Pattern):真實(shí)世界的時(shí)序數(shù)據(jù)通常在多個(gè)時(shí)間尺度上呈現(xiàn)不同的變化??梢杂^察到,在最細(xì)粒度時(shí)間尺度上表現(xiàn)良好的模型通常在較粗粒度上也能保持較高的準(zhǔn)確性,而MLP在大多數(shù)尺度上均表現(xiàn)不佳。
- 頻率域的多周期模式(Multi-Period Pattern):時(shí)序數(shù)據(jù)往往存在多個(gè)周期性,性能較好的模型能夠捕捉到與真實(shí)數(shù)據(jù)接近的周期性特征,而MLP無(wú)法有效識(shí)別這些周期性結(jié)構(gòu)。
因此,為了增強(qiáng)MLP的時(shí)序預(yù)測(cè)能力,從教師模型中蒸餾并整合多尺度和多周期模式至關(guān)重要。
跨架構(gòu)知識(shí)蒸餾(Cross-Architecture Distillation)

對(duì)于任意教師模型,TimeDistill均能有效提煉其在時(shí)序預(yù)測(cè)中的多種模式,并將其壓縮進(jìn)輕量學(xué)生模型(例如MLP),使后者具備更強(qiáng)的預(yù)測(cè)能力。

其中
即學(xué)生模型的預(yù)測(cè),
即學(xué)生模型的中間特征,S即預(yù)測(cè)長(zhǎng)度,D即中間特征維度,C即變量數(shù)量。下標(biāo)為t即代表教師模型。
多尺度、多周期特征的系統(tǒng)性提煉
多尺度蒸餾(Multi-Scale Distillation):在不同的時(shí)間分辨率上分別下采樣教師模型與學(xué)生模型的預(yù)測(cè)和中間特征,確保學(xué)生模型同時(shí)捕捉粗粒度的整體趨勢(shì)與細(xì)粒度的瞬時(shí)變化。


多周期蒸餾(Multi-Period Distillation):通過(guò)傅里葉變換(FFT)分析頻域信息,將教師模型在周期性模式上的優(yōu)勢(shì)提煉并傳遞給學(xué)生模型,使后者在應(yīng)對(duì)長(zhǎng)周期波動(dòng)(如季節(jié)、年度周期)與短周期干擾(如日內(nèi)流量峰谷變化)時(shí),都能維持穩(wěn)定高精度。

由于FFT得到的頻譜往往包含很多低頻噪聲,研究人員通過(guò)低溫蒸餾使得頻率(周期)分布更加鋒利,使得學(xué)生模型可以直接學(xué)習(xí)最顯著的頻率(周期)分量。

理論解釋
從理論上,研究人員將多尺度和多周期蒸餾損失詮釋為一種數(shù)據(jù)增強(qiáng)策略,類似于分類任務(wù)中的標(biāo)簽平滑(Label Smoothing)。
蒸餾過(guò)程實(shí)際上等同于將教師模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽進(jìn)行混合,類似生成了經(jīng)過(guò)Mixup變換的增廣樣本,這種數(shù)據(jù)增強(qiáng)帶來(lái)了以下三個(gè)益處:增強(qiáng)泛化,顯式融合多種模式,穩(wěn)定訓(xùn)練,為TimeDistill的優(yōu)異表現(xiàn)提供了理論支撐。


實(shí)驗(yàn)效果
效果全面領(lǐng)先
TimeDistill在8個(gè)時(shí)序數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中7個(gè)數(shù)據(jù)集的MSE指標(biāo)優(yōu)于基線教師模型,在所有數(shù)據(jù)集的MAE指標(biāo)上均取得最佳表現(xiàn),展現(xiàn)出卓越的預(yù)測(cè)能力。

兼容多種教師模型
TimeDistill適用于多種教師模型,能夠有效蒸餾知識(shí)并提升MLP學(xué)生模型的性能,同時(shí)相較教師模型本身也有顯著提升。

兼容多種學(xué)生模型
TimeDistill不僅適用于MLP結(jié)構(gòu),還可以增強(qiáng)輕量級(jí)學(xué)生模型的性能。例如,在以ModernTCN作為教師模型的實(shí)驗(yàn)中,TimeDistill使兩個(gè)輕量模型TSMixer和LightTS的MSE分別降低6.26%和8.02%,驗(yàn)證了其在不同學(xué)生模型上的適應(yīng)性。

兼容多種回溯窗口長(zhǎng)度
時(shí)序模型的預(yù)測(cè)性能往往隨回溯窗口(歷史觀測(cè)長(zhǎng)度)變化而波動(dòng),而TimeDistill在所有窗口長(zhǎng)度下均能提升MLP表現(xiàn),甚至超越教師模型,體現(xiàn)出對(duì)不同時(shí)間依賴模式的強(qiáng)大適應(yīng)能力。

消融實(shí)驗(yàn)
TimeDistill通過(guò)消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了模型設(shè)計(jì)的合理性。值得注意的是,即使去掉Ground Truth監(jiān)督信號(hào)(w/o sup),TimeDistill仍然能夠顯著提升MLP預(yù)測(cè)精度,表明其可以從教師模型中有效學(xué)習(xí)到豐富的知識(shí)。

總結(jié)
TimeDistill的提出,標(biāo)志著時(shí)序預(yù)測(cè)領(lǐng)域正在向更高效、更通用的方向發(fā)展。它不僅展示了輕量級(jí)模型在蒸餾復(fù)雜模型知識(shí)后所能達(dá)到的卓越性能,還為學(xué)術(shù)界和工業(yè)界提供了新的思考方向:
如何在計(jì)算成本、模型規(guī)模與預(yù)測(cè)精度之間找到最優(yōu)平衡?
如何通過(guò)知識(shí)蒸餾讓輕量模型超越其原有能力上限?
未來(lái),期待更多研究機(jī)構(gòu)與企業(yè)推動(dòng)TimeDistill在金融、能源、流量預(yù)測(cè)等領(lǐng)域的廣泛應(yīng)用,為數(shù)據(jù)驅(qū)動(dòng)時(shí)代的時(shí)序分析注入新的動(dòng)力。



































