NeurIPS'24 基于自適應多尺度超圖Transfromer的時間序列預測方法
在現實世界中,觀測到的時間序列通常表現出復雜多樣的多尺度時間模式。盡管基于Transformer的方法在多尺度時間模式交互建模中取得了顯著成功,但是兩個關鍵問題限制了其在時間序列預測中的進一步發展。一方面,單個的時間點包含的語義信息較少,利用attention建模pair-wise交互會造成信息利用瓶頸。另一方面,時間模式中存在多種固有的時序變化,這些時序變化相互糾纏,為建模多尺度時間模式交互帶來了較大的挑戰。
針對上述問題,本文介紹一篇來自浙大研究團隊的最新相關研究工作,該工作目前已被NeurIPS2024接收。作者提出了一種基于自適應多尺度超圖Transformer的框架(Ada-MSHyper),用于時間序列預測。具體而言,作者通過設計自適應超圖學習模塊,為建模group-wise交互提供基礎。然后通過設計多尺度交互模塊,賦予Transformer建模不同尺度時間模式間group-wise交互的能力。此外作者還引入了節點和超邊約束機制,用于聚集具有相似語義信息的節點,并區分每個尺度內的時序變化。在11個真實世界數據集上的結果顯示,Ada-MSHyper達到了SOTA效果。

論文標題:Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting
下載地址:??https://arxiv.org/pdf/2410.23992??
1.研究背景
時間序列預測在眾多領域中展現了其廣泛的應用價值,例如能源消耗規劃、交通與經濟預測,以及疾病傳播預測等。在這些實際應用中,觀測到的時間序列通常表現出復雜多樣的多尺度時間模式。例如,由于周期性的人類活動,交通流量和電力消耗會呈現出顯著的天模式、周模式以及月模式。
得益于建模pair-wise交互以及提取序列多尺度表示的能力,Transformer被廣泛應用到時間序列預測中。雖然基于Transformer的方法在多尺度時間模式交互建模中取得了顯著成功,但是兩個關鍵問題限制了Transformer在時間序列預測中的進一步發展。
語義信息稀疏性:不同于自然語言處理和計算機視覺,時間序列中單個的時間點包含較少的語義信息。為了解決語義信息稀疏性的問題,之前的方法通過劃分Path或者預定義超圖結構的方法增強局部信息并建模group-wise交互,但是簡單劃分Patch或者預定義的超圖結構容易引入噪聲干擾,且難以捕獲隱式交互。
時間變化糾纏:由于真實世界時間序列的復雜性和非平穩性,觀察到的時間序列模式通常包含大量固有的變化,這些變化可能相互混合和重疊。特別是在不同尺度上存在不同的時間模式時,多種時序變化深度糾纏,為時間序列預測帶來了極大的挑戰。
2.建模方法
為了解決上述問題,作者提出了一種基于自適應多尺度超圖Transformer的框架(Ada-MSHyper),Ada-MSHyper的核心在于建模不同尺度時間模式間group-wise交互。Ada-MSHyper首先將輸入序列映射為多尺度特征表示,然后通過將多尺度特征表示視為節點,引入了一種自適應多尺度結構,以發掘不同尺度下節點間豐富而隱含的group-wise交互。Ada-MSHyper主要由四個主要部分組成:多尺度特征提取模塊,自適應超圖學習模塊,多尺度交互模塊,和多尺度融合模塊。

多尺度特征提取模塊:多尺度特征提取模塊用來將原始輸入序列映射為多尺度特征表示,這種多尺度結構可以使模型在不同尺的上觀察時間序列表示。具體來說,小尺度可以反映局部變化模式(如天模式),而大尺度可以反應全局變化模式(如周模式和月模式)。多尺度特征提取模塊模塊由多個映射函數組成,每個映射函數將前一個尺度的子序列作為輸入,并生成更大尺度的子序列作為輸出,映射函數可以由1D卷積或average pooling實現。
自適應超圖學習模塊:模塊通過學習點邊關聯矩陣來捕獲每個尺度下節點間group-wise的交互。但是,作者認為純數據驅動的學習方式存在兩大局限:(1)難以有效聚集具有相似語義信息的節點(2)難以有效區分每個尺度內的時序變化。為了解決上述問題,作者在自適應超圖學習的過程中引入了節點和超邊約束(Node and Hyperedge Constraint,NHC)機制,其具體結構如下圖。在每個尺度內,NHC機制首先根據點邊關聯矩陣,通過聚合超邊所連接的節點特征得到超邊特征表示。如圖(b)所示,節點約束損失通過計算超邊特征表示和節點特征表示之間的差異得到。如圖(c)所示,超邊約束損失通過計算超邊特征表示間的歐式距離和余弦相似性得到。通過最小化超邊約束損失和節點約束損失,NHC機制可以聚集具有相似語義信息的節點并區分每個尺度內的時序變化。

多尺度交互模塊:在得到超圖結構以后,為了建模不同尺度上的時間模式交互,一種直觀的方法是混合不同尺度的節點特征表示。然而,作者認為,尺度內交互和尺度間交互反應了時間模式交互的不同方面,其中尺度內交互主要描述具有相似語義信息的節點間細粒度的交互,而尺度間交互則更強調宏觀變化交互。因此,作者提出了多尺度交互模塊,分別處理尺度內交互和尺度間交互。具體而言,尺度內交互模塊通過超圖卷積attention計算每個尺度內具有相似語義信息的節點特征間group-wise交互,尺度間交互模塊通過attention計算不同尺度間超邊特征間的交互。
多尺度融合模塊:在通過多尺度交互模塊得到更新后的節點特征和超邊特征后,多尺度融合模塊通過拼接操作將這些特征拼接起來,并送入線性層得到最終輸出。
3.實驗效果
Ada-MSHyper在11個真實時間序列數據集上和15個基線方法進行了比較。實驗結果顯示,Ada-MSHyper在多個預測任務上都取得了SOTA性能,對于長時,短時和超長時時間序列預測,Ada-MSHyper的均方誤差(MSE)相比于最優基線分別降低了4.56%,10.38%和4.97%。



作者在ETTh1數據集上進行了消融實驗。結果顯示,去掉AHL模塊或者NHC機制會顯著降低模型性能,實驗結果驗證了AHL模塊和NHC機制的有效性。

作者在Electricity數據集上的可視化結果如圖3所示。為了進一步驗證NHC機制的有效性,作者根據節點值的大小將節點分為四組,相同顏色的節點表示其具有相似的語義信息。如圖(a)所示,對于目標節點來說,其他顏色的節點被視為噪聲。如圖(b)所示,由于缺乏節點約束,-w/o NHC 只能捕獲目標節點及其鄰居節點間的交互,無法區分細微的噪聲干擾。而在(c)中,通過引入節點約束,-w/o HC不僅可以聚集鄰居節點還能聚集距離較遠但具有較強相關性的節點。最后在圖(d)中,通過NHC機制,Ada-MSHyper不僅可以聚集具有相似語義信息的節點,還能區分時序變化。

4.總結
本文提出了Ada-MSHyper,一種基于自適應多尺度超圖的時間序列預測方法。通過引入AHL模塊和多尺度交互模塊,Ada-MSHyper能夠建模更全面的group-wise交互,從而解決語義信息稀疏性的問題。實驗結果顯示,Ada-MSHyper實現了SOTA的性能,在長時、短時和超長時時間序列預測中,Ada-MSHyper的均方誤差(MSE)相比于最優基線分別降低了4.56%,10.38%和4.97%。此外,可視化分析和消融實驗進一步驗證了NHC機制在聚類具有相似語義信息節點以及解決時間變化糾纏問題上的有效性。

















