航空發(fā)動(dòng)機(jī)用上大模型:解決復(fù)雜時(shí)序問(wèn)題,性能超越ChatGPT-4o實(shí)現(xiàn)SOTA|上交創(chuàng)智復(fù)旦
時(shí)序數(shù)據(jù)分析在工業(yè)監(jiān)控、醫(yī)療診斷等領(lǐng)域至關(guān)重要。
比如航空發(fā)動(dòng)機(jī)監(jiān)控這個(gè)復(fù)雜工業(yè)場(chǎng)景中,工程師需分析海量多通道傳感器數(shù)據(jù),以判斷設(shè)備狀態(tài)并制定維護(hù)決策。
然而,現(xiàn)有研究多聚焦于分類、預(yù)測(cè)等單一任務(wù),與實(shí)際工業(yè)場(chǎng)景中專家通過(guò)自然語(yǔ)言進(jìn)行復(fù)雜交互和決策的需求存在顯著差異。
上海交通大學(xué)航空航天學(xué)院李元祥教授團(tuán)隊(duì)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院團(tuán)隊(duì)以航空發(fā)動(dòng)機(jī)運(yùn)維為背景,提出高效、可遷移的時(shí)序-語(yǔ)言橋接架構(gòu)——ITFormer,將專家診斷過(guò)程抽象為”理解、感知、推理、決策”四個(gè)認(rèn)知層次,并首次系統(tǒng)性地定義為“時(shí)序問(wèn)答”任務(wù)范式。
團(tuán)隊(duì)基于NASA航空發(fā)動(dòng)機(jī)數(shù)據(jù),構(gòu)建了包含11萬(wàn)余問(wèn)答對(duì)的EngineMT-QA數(shù)據(jù)集。該數(shù)據(jù)集的任務(wù)設(shè)計(jì)緊密貼合專家的認(rèn)知流程,為評(píng)估模型在真實(shí)工業(yè)場(chǎng)景下的推理能力提供了首個(gè)標(biāo)準(zhǔn)化基準(zhǔn)。
結(jié)果顯示,ITFormer以模塊化設(shè)計(jì)實(shí)現(xiàn)了時(shí)序數(shù)據(jù)與大語(yǔ)言模型的高效融合,僅需訓(xùn)練不足1%的額外參數(shù),便可在通用時(shí)序問(wèn)答數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能和良好的遷移能力,展現(xiàn)了卓越的“即插即用”特性。它可無(wú)縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語(yǔ)言模型。
此外,在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后,ITFormer的性能得到進(jìn)一步的巨大提升,在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平,其中“因果分析”準(zhǔn)確率高達(dá)0.83。

用戶可以進(jìn)行追問(wèn)式探索,“昨天哪個(gè)設(shè)備的能耗最高?” “為什么它的能耗這么高?” “和上周同期相比情況如何?”。這種交互式的分析流程,讓數(shù)據(jù)探索過(guò)程更符合人類的思維習(xí)慣,從而真正實(shí)現(xiàn)了數(shù)據(jù)分析的大眾化。

航空發(fā)動(dòng)機(jī)能用大模型了
技術(shù)難點(diǎn)
高維數(shù)據(jù)的語(yǔ)義提取:?jiǎn)蝹€(gè)時(shí)序樣本可包含數(shù)萬(wàn)個(gè)數(shù)值(如32通道×600時(shí)間步),如何從中提取出有效的語(yǔ)義特征是首要難題。
抽象語(yǔ)義的對(duì)齊建模:時(shí)序信號(hào)的模式變化(如緩慢上升、突然波動(dòng))與物理系統(tǒng)的狀態(tài)轉(zhuǎn)換(如設(shè)備老化、突發(fā)故障)之間的對(duì)應(yīng)關(guān)系高度抽象,難以直接建模。
多尺度時(shí)間依賴的處理:時(shí)序數(shù)據(jù)中的關(guān)鍵信息可能分布在不同的時(shí)間尺度上,模型必須具備處理多尺度依賴的能力。

ITFormer架構(gòu)與關(guān)鍵模塊

ITFormer的設(shè)計(jì)思想是作為一個(gè)輕量級(jí)的”橋梁”,在凍結(jié)預(yù)訓(xùn)練時(shí)序編碼器和大型語(yǔ)言模型(LLM)的前提下,實(shí)現(xiàn)兩者的高效對(duì)齊與融合。
時(shí)間令牌位置編碼(TPE)為精確表征多維時(shí)序數(shù)據(jù)的結(jié)構(gòu),TPE在三個(gè)層次上進(jìn)行位置編碼:時(shí)間步(Temporal Steps)、通道(Channels)和時(shí)序片段(Segments),確保模型能區(qū)分不同時(shí)間點(diǎn)、不同傳感器以及不同數(shù)據(jù)段的語(yǔ)義信息。
可學(xué)習(xí)指令令牌(LIT)為了讓模型理解具體的任務(wù)指令,LIT在文本查詢前添加了一組可學(xué)習(xí)的令牌。這些令牌通過(guò)自注意力機(jī)制,能夠從自然語(yǔ)言查詢中自動(dòng)捕獲并濃縮任務(wù)相關(guān)的語(yǔ)義信息,從而指導(dǎo)后續(xù)的跨模態(tài)融合。
指令時(shí)間注意力(ITA)作為ITFormer的核心創(chuàng)新,ITA通過(guò)一個(gè)高效的兩階段過(guò)程實(shí)現(xiàn)跨模態(tài)對(duì)齊:
- 通道指令融合(Channel Instruct Fusing):根據(jù)LIT提供的任務(wù)指令,動(dòng)態(tài)地對(duì)每個(gè)時(shí)間步上的多通道特征進(jìn)行加權(quán)聚合,篩選出與任務(wù)最相關(guān)的傳感器信息。
- 時(shí)間指令注意力(Time Instruct Attention):在上一步的基礎(chǔ)上,再次根據(jù)任務(wù)指令,在時(shí)間維度上進(jìn)行注意力加權(quán),聚合最關(guān)鍵的時(shí)間片段信息。這一設(shè)計(jì)顯著提升了計(jì)算效率,同時(shí)保證了對(duì)齊的精確性。
時(shí)間令牌即語(yǔ)言(TAL)該策略將ITA融合后的時(shí)序特征向量直接視為語(yǔ)言令牌,并替換掉文本查詢中預(yù)設(shè)的占位符。這使得時(shí)序信息能以一種與語(yǔ)言模型兼容的方式,無(wú)縫嵌入到LLM的輸入序列中,從而實(shí)現(xiàn)端到端的建模。
EngineMT-QA數(shù)據(jù)集設(shè)計(jì)

EngineMT-QA基于真實(shí)的工業(yè)應(yīng)用場(chǎng)景設(shè)計(jì),其任務(wù)層次反映了專家處理時(shí)序數(shù)據(jù)的認(rèn)知過(guò)程。

數(shù)據(jù)規(guī)模:包含超過(guò)11萬(wàn)對(duì)高質(zhì)量問(wèn)答數(shù)據(jù),源于NASA N-CMAPSS標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)維度:覆蓋32個(gè)傳感器通道,每個(gè)樣本包含600個(gè)時(shí)間步。質(zhì)量保證:所有數(shù)據(jù)均經(jīng)過(guò)領(lǐng)域?qū)<业慕徊鎸徍耍_保技術(shù)準(zhǔn)確性。

適配主流LLMs,性能實(shí)現(xiàn)SOTA
EngineMT-QA數(shù)據(jù)集上的性能對(duì)比

在EngineMT-QA數(shù)據(jù)集上,ITFormer的性能全面超越了包括主流多模態(tài)API,如ChatGPT-4o、Gemini,以及專用時(shí)序-文本模型Time-LLM、AutoTime在內(nèi)的所有基線。尤其在需要深度分析的“推理”和“決策”任務(wù)上,F(xiàn)1分?jǐn)?shù)和BLEU得分的顯著領(lǐng)先,證明了ITFormer對(duì)復(fù)雜時(shí)序-語(yǔ)言關(guān)系具備強(qiáng)大的建模能力。
ITFormer模塊有效性驗(yàn)證:消融實(shí)驗(yàn)

消融實(shí)驗(yàn)結(jié)果量化了ITFormer各核心組件的貢獻(xiàn)。實(shí)驗(yàn)表明:TPE(時(shí)間令牌位置編碼) 對(duì)模型性能的提升最為關(guān)鍵,是模型理解多維時(shí)序結(jié)構(gòu)的基礎(chǔ)。同時(shí),ITA(指令時(shí)間注意力) 與TPE的結(jié)合能夠產(chǎn)生顯著的協(xié)同效應(yīng)。最終,包含全部組件的完整架構(gòu)性能最佳,驗(yàn)證了ITFormer系統(tǒng)性設(shè)計(jì)的有效性。
架構(gòu)通用性:適配不同時(shí)序編碼器與語(yǔ)言模型

ITFormer展現(xiàn)了卓越的“即插即用”特性。實(shí)驗(yàn)證明,它可無(wú)縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語(yǔ)言模型。此外,隨著底層語(yǔ)言模型規(guī)模的提升,整體任務(wù)性能也隨之穩(wěn)步提高,表現(xiàn)出良好的可擴(kuò)展性。
跨域泛化與數(shù)據(jù)集價(jià)值

為驗(yàn)證模型與數(shù)據(jù)集的通用價(jià)值,研究團(tuán)隊(duì)在公開(kāi)基準(zhǔn)TimeSeriesExam上進(jìn)行了測(cè)試。
結(jié)果顯示:1.ITFormer方法的有效性:即便不經(jīng)過(guò)預(yù)訓(xùn)練,ITFormer直接在TimeSeriesExam上訓(xùn)練,其性能已在多個(gè)任務(wù)上優(yōu)于通用基線,證明了其架構(gòu)設(shè)計(jì)的先進(jìn)性。 2.EngineMT-QA數(shù)據(jù)集的價(jià)值:在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后,ITFormer的性能得到進(jìn)一步的巨大提升,在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平,其中“因果分析”準(zhǔn)確率高達(dá)0.83。
這充分說(shuō)明,EngineMT-QA作為一個(gè)時(shí)序文本對(duì)數(shù)據(jù)集,能夠?yàn)槟P吞峁╆P(guān)于時(shí)序-文本關(guān)系的本質(zhì)性知識(shí),從而顯著提升其在其他任務(wù)上的泛化能力。
推理效率驗(yàn)證

效率測(cè)試表明,ITA機(jī)制相較于傳統(tǒng)的跨模態(tài)注意力(cross-attention),在處理多通道、長(zhǎng)序列數(shù)據(jù)時(shí)推理速度優(yōu)勢(shì)明顯。同時(shí),LIT模塊也能有效降低長(zhǎng)文本輸入帶來(lái)的計(jì)算開(kāi)銷。這些結(jié)果證明,ITFormer的架構(gòu)設(shè)計(jì)兼顧了高性能與高效率,為大規(guī)模實(shí)時(shí)應(yīng)用提供了可能。
ITFormer及EngineMT-QA為時(shí)序AI社區(qū)提供了新的研究范式和寶貴資源,在工程和科學(xué)領(lǐng)域均具有廣闊的應(yīng)用前景。
時(shí)序QA論文合集:https://github.com/Pandalin98/Awesome-Time-Series-QA-Papers
項(xiàng)目主頁(yè):https://pandalin98.github.io/itformer_site/
論文鏈接:http://arxiv.org/abs/2506.20093































