頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世

文章鏈接:https://arxiv.org/pdf/2507.20177
代碼鏈接:https://github.com/GXNU-ZhongLab/ODTrack
亮點直擊
- 為視覺跟蹤領域提供了首個通用的視頻級模態感知跟蹤模型。UM-ODTrack僅需訓練一次,即可使用相同的架構和參數實現多任務推理,包括 RGB-T/D/E 跟蹤任務。
- 對于視頻級關聯,引入了兩種時序令牌傳播注意力機制,將目標的判別性特征壓縮到一個令牌序列中。該令牌序列作為提示來指導未來幀的推理,從而避免了復雜的在線更新策略。
- 對于多模態感知,提出了兩種新穎的門控感知器,能夠自適應地學習跨模態的潛在表示,有助于我們模型的多任務統一訓練和推理。

圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標記傳播的在線視頻級跟蹤方法。(c) 基于單次訓練和單任務推理(即一個模型對一個任務,一對一)的多模態跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓練和多任務推理(即一個模型對多個任務,一對多)的通用模態感知跟蹤模型。
總結速覽
解決的問題
- 采樣稀疏性:傳統跟蹤器主要采用“圖像對”(一個參考幀,一個搜索幀)的稀疏采樣策略,無法充分利用視頻中豐富的時序上下文信息,難以準確分析目標的動態運動狀態。
- 關聯局限性:傳統的特征匹配/融合方法側重于目標的外觀相似性,缺乏連續、密集的跨幀關聯。現有方法即使引入多幀,其時空關系也僅限于選定的幀范圍內,未能實現視頻級別的信息關聯。
- 模型專一性:現有的多模態跟蹤方法普遍采用“一個模型對應一個任務”(一對一)的學習范式。這導致需要為不同模態組合(如RGB-T, RGB-D)訓練和維護多個獨立模型,訓練負擔重,且模型間缺乏兼容性和泛化能力。
提出的方案
提出了 UM-ODTrack 的通用視頻級別多模態感知跟蹤模型,其核心創新點包括:
- 視頻級別采樣:將模型輸入從“圖像對”擴展到“視頻序列”級別,使模型能夠從更全局的視角理解視頻內容。
- 在線密集時序令牌學習:將目標跟蹤重新定義為令牌序列傳播任務,設計了兩種簡單有效的在線密集時序令牌關聯機制,以自回歸的方式在視頻流中傳播目標的外觀和運動軌跡信息。
- 模態可擴展感知:設計了一種通用的模態感知跟蹤流程,通過兩個新穎的門控感知器,利用門控注意力機制自適應學習跨模態表征。
- 一次性訓練范式:采用一次性訓練方案,將學習到的多種模態的潛在表征壓縮到同一套模型參數中,實現一個模型支持多種跟蹤任務(RGB, RGB-T, RGB-D, RGB-E)的推理。
應用的技術
- 視頻序列建模:將視頻序列視為連續句子,借鑒語言建模思想進行上下文理解。
- 時序令牌關聯注意力機制:提出了串聯時序令牌注意力和分離時序令牌注意力兩種機制,用于在線傳播和關聯時序信息。
- 門控注意力機制:在條件門控感知器和門控模態可擴展感知器中應用,以自適應地融合和學習跨模態特征。
- 一次性/統一多任務學習:通過一次性訓練,使單一模型學習共享的視覺-語義特征空間,同時尊重不同任務的異質性,實現多任務推理。
達到的效果
- 性能提升:在七個可見光跟蹤基準和五個多模態跟蹤基準上進行了大量實驗,結果表明UM-ODTrack達到了最新的SOTA性能。
- 信息利用優化:提純后的令牌序列可作為后續視頻幀推理的時序提示,利用過去信息指導未來推理,實現了信息的有效傳遞和利用。
- 模型效率與泛化性:一次性訓練方案不僅減輕了訓練負擔,還通過共享參數和跨任務學習提升了模型的表征能力,實現了從“一對一”到“一對多”的范式轉變,使模型更具通用性和靈活性。
方法
A. 架構設計
UM-ODTrack,通用的視頻級模態感知框架它支持各種跟蹤任務,包括 RGB、RGB+熱成像、RGB+深度和 RGB+事件跟蹤。
下圖2和圖3是用于視頻級多模態跟蹤的 UM-ODTrack 框架的概覽。將整個視頻建模為一個連續序列,并以自回歸的方式逐幀解碼目標實例的定位。首先,提出了一種新穎的視頻序列采樣策略,專門設計用于滿足視頻級模型的輸入要求(原則1:視頻級采樣)。然后,提出了一種新穎的模態標記器,以共享編碼的方式對不同的模態源進行標記化。隨后,為了捕獲視頻序列中目標實例的時空軌跡信息,我們引入了兩種簡單而有效的時序令牌關聯注意力機制(原則2:視頻級關聯)。此外,引入了兩個強大的門控感知器來自適應地學習跨模態的通用視覺表示,從而提高模型在不同跟蹤場景下的泛化能力(原則3:模態可擴展)。


基于上述建模技術,將獲得一個通用的模態感知跟蹤模型,該模型可以使用相同的模型架構和參數同時推理多個子跟蹤任務。以下各節將給出詳細描述。
B. 視頻級多模態跟蹤公式化

使用上述建模方法,我們可以構建一個簡潔優雅的跟蹤器來實現逐幀跟蹤。然而,這種建模方法有兩個明顯的缺點:
- 所構建的跟蹤器僅專注于幀內目標匹配,缺乏建立跨幀關聯的能力,而這種能力對于跨視頻流跟蹤對象是必需的。
- 所構建的跟蹤器僅限于單模態跟蹤場景,由于領域特定知識的偏差,缺乏快速擴展到多模態跟蹤的能力。因此,這些限制阻礙了視頻級多模態跟蹤算法的研究。
在這項工作中,旨在緩解這些挑戰,并為通用視頻級模態感知跟蹤算法提出一種新的設計范式。首先,我們將跟蹤框架的輸入從圖像對級別擴展到視頻級別以進行時序建模。然后,引入一個時序令牌序列T ,旨在傳播視頻序列中目標實例的外觀、時空位置和軌跡信息。形式上,我們將視頻級跟蹤公式化如下:


此外,為了提高視頻級跟蹤器的通用模態感知能力,我們將其擴展到多模態跟蹤領域。首先,將輸入從單模態范圍擴展到多模態范圍。接著,使用一個包含 RGB 編碼器和 D/T/E 編碼器的共享通用模態編碼器,分別用于提取和融合 RGB 視頻片段和輔助視頻片段。隨后,設計了兩個新穎的門控感知器來學習跨模態的通用潛在表示。定義如下:


C. 視頻序列采樣策略

D. 模態標記器
直觀地說,考慮到來自不同模態(即深度、熱紅外和事件)的輸入幀的可變性,傳統方法是為每種模態設計單獨的標記器。這使得不同的輸入幀能夠被轉換為具有相同序列格式的令牌向量。相反,考慮到不同模態間可能存在共享的語義信息,我們將深度、熱紅外和事件數據視為統一的視覺表示。設計了一個共享的模態標記器,以將來自不同模態的數據統一轉換為相同的一維序列。對于包含深度、熱紅外和事件等多種模態信息的視覺輸入,我們采用單個二維卷積層作為統一標記器。隨后,利用一個基于transformer的通用模態編碼器來處理這些令牌。
E. 門控感知器
由于基礎視覺跟蹤器的模態感知能力有限,一旦在RGB跟蹤基準上進行訓練,它就無法輕易適應復雜的多模態跟蹤場景。因此,我們設計了兩個簡單而有效的模塊,即條件門控和門控模態可擴展感知器,如圖3所示,以自適應地學習通用的跨模態表示。
條件門控。為了在共享的通用模態編碼器中實現多模態表示學習,我們在每個編碼器層之間以殘差方式添加了條件門控模塊。在條件門控模塊中,可見光特征和相應的輔助特征(即深度、熱和事件)沿著通道維度進行跨模態對齊,以補充來自其他模態的豐富細節。然后,對齊后的多模態表示由條件門控模塊進行門控,以促進模態間的交叉學習。
條件門控模塊可以規范化為以下方程:




F. 時序令牌關聯注意力機制
不采用復雜的視頻transformer作為編碼視頻內容的基礎框架,而是從一個新的視角進行設計,利用簡單的 2D transformer架構,即 2D ViT。 為了構建一個優雅的實例級幀間關聯機制,必須擴展原始的 2D 注意力操作,以提取和整合視頻級特征。在我們的方法中,我們基于壓縮-傳播的概念設計了兩種時序令牌注意力機制,即拼接令牌注意力機制和分離令牌注意力機制,如下圖4(左)所示。其核心設計在于向注意力操作中注入額外信息,例如更多的視頻序列內容和時序令牌向量,使它們能夠提取更豐富的目標實例的時空軌跡信息。




在這種新的設計范式中,可以使用時序令牌作為推斷下一幀的提示,利用過去的信息來指導未來的推斷。此外,我們的模型通過在線令牌傳播隱式地傳播目標實例的外觀、定位和軌跡信息。這顯著提高了視頻級框架的跟蹤性能。
另一方面,如圖4(c)所示,所提出的分離令牌注意力機制將注意力操作分解為三個子過程:參考幀之間的自信息聚合、參考幀與搜索幀之間的跨信息聚合,以及時序令牌與視頻序列之間的跨信息聚合。這種分解在一定程度上提高了模型的計算效率,同時令牌關聯遵循上述流程。
與在線更新的討論:大多數先前的跟蹤算法結合在線更新方法來訓練時空跟蹤模型,例如添加額外的得分質量分支或 IoU 預測分支。它們通常需要復雜的優化過程和更新決策規則。與這些方法相比,我們通過利用令牌序列的在線迭代傳播,避免了復雜的在線更新策略,使我們能夠實現更高效的模型表示和計算。
G. 一次性訓練與通用推理

一次性訓練。如果一個單一的神經網絡模型能夠同時跨多個任務進行推理,它將呈現出顯著的優勢。這不僅減少了需要為每個領域手工設計具有適當歸納偏置的模型,還增加了可用訓練數據的數量和多樣性。
對于 RGB 跟蹤任務,本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的訓練數據集來訓練我們的基礎視頻級跟蹤模型。在輸入數據方面,我們將包含三個 192 × 192 像素參考幀和兩個 384 × 384 像素搜索幀的視頻序列作為模型的輸入。
對于多模態跟蹤任務,與在單個下游數據集上獨立訓練的跟蹤算法,如[62], [64], [66], [74]相比,我們的目標是同時聯合訓練多個跟蹤任務(即 RGB-T 跟蹤、RGB-D 跟蹤和 RGB-E 跟蹤)。我們在聯合的熱紅外(即 LasHeR,對齊了 RGB 和紅外數據)、深度(即 DepthTrack,對齊了 RGB 和深度數據)和事件(即 VisEvent,對齊了 RGB 和事件數據)數據集上,以一次性訓練的方式訓練我們的通用模態感知跟蹤模型,并使用相同的損失函數監督其預測的邊界框。



通用推理。 算法1總結了我們模型的推理過程。對于 RGB 跟蹤,我們遵循與其他transformer跟蹤器相同的跟蹤流程。得益于我們的一次性訓練方案和門控模態可擴展感知器模塊,對于 RGB-D、RGB-T 和 RGB-E 跟蹤任務,我們使用同一套模型參數無縫地執行任何跟蹤任務的推理,而無需額外的多次微調技術。在輸入數據方面,為了與訓練設置保持一致,我們在推理階段將三個等間隔的參考幀納入我們的跟蹤器。同時,搜索幀和時序令牌向量被逐幀輸入。

實驗
A. 實現細節

B. 與 SOTA 的比較
在七個可見光基準(包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100)和五個多模態跟蹤基準(包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent)上將我們的 ODTrack 和 UM-ODTrack 與最先進的跟蹤器進行了比較。我們的 ODTrack 和 UM-ODTrack 在這些數據集上展示了卓越的性能。
GOT10K。GOT10K 是一個大規模跟蹤數據集,包含超過 10,000 個視頻序列。GOT10K 基準提出了一個協議,要求跟蹤器僅使用其訓練集進行訓練。我們遵循該協議來訓練我們的框架。結果記錄在表 I 中。在先前的方法中,未采用視頻級采樣策略的 ARTrack384 在 AO(平均重疊率)、SR0.5 和 SR0.75(閾值為 0.5 和 0.75 時的成功率)指標上分別達到了 SOTA 性能。受益于提出的新視頻級采樣策略,我們的 ODTrack384 取得了新的最先進水平,在 AO、SR0.5 和 SR0.75 指標上分別達到了 77.0%、87.9% 和 75.1%。結果表明,我們 ODTrack 的一個優勢來自于旨在釋放模型潛力的視頻級采樣策略。
LaSOT。LaSOT 是一個大規模長期跟蹤基準,包含 1120 個訓練序列和 280 個測試序列。如表 I 所示,可以看到我們的 ODTrack384 通過有趣的時序令牌注意力機制取得了良好的跟蹤結果。與最新的 ARTrack 性能相比,我們的 ODTrack384 在 AUC、P Norm 和 P 分數方面分別實現了 0.6%、1.5% 和 1.5% 的提升。結果表明,跟蹤器學習到的具有目標關聯依賴關系的時空特征可以提供可靠的目標定位。此外,由于我們的時序令牌旨在關聯目標實例以提高在多種跟蹤挑戰(即快速運動、背景干擾、視角變化和尺度變化等)下的魯棒性和準確性。因此,如圖 5 所示,展示了 LaSOT 數據集的屬性評估,以說明我們的令牌關聯機制如何幫助跟蹤器學習關于目標實例的時空軌跡信息,顯著增強長期跟蹤場景中的目標定位。
TrackingNet。TrackingNet 是一個大規模短期數據集,提供了一個包含 511 個視頻序列的測試集。如下表 I 報告,通過實現目標實例的跨幀關聯,ODTrack384 取得了 85.1% 的成功分數(AUC)、90.1% 的歸一化精度分數(P Norm)和 84.9% 的精度分數(P),分別優于先前沒有令牌關聯的高性能跟蹤器 SeqTrack 1.2%、1.3% 和 1.3%。同時,與最近沒有時序令牌關聯的視頻級跟蹤器 VideoTrack 相比,ODTrack 在 AUC、P Norm 和 P 指標上分別優于 1.3%、1.4% 和 1.8%。這表明我們的時序令牌可以有效地跨搜索幀關聯目標對象,并且這種新穎的關聯方式可以增強我們 ODTrack 在多個跟蹤場景中的泛化能力。

LaSOText。LaSOText 是 LaSOT 的擴展版本,包含 150 個長期視頻序列。如表 I 報告,我們的方法取得了良好的跟蹤結果,優于大多數比較的跟蹤器。例如,我們的跟蹤器取得了 52.4% 的 AUC、63.9% 的 P Norm 分數和 60.1% 的 P 分數,分別優于 ARTrack 0.5%、1.9% 和 1.6%。此外,我們的 ODTrack 在成功分數上也優于基于圖像對匹配的先進跟蹤器 OSTrack 1.9%。結果符合我們的預期,即視頻級建模在復雜的長期跟蹤場景中具有更穩定的目標定位能力。
VOT2020。VOT2020 包含 60 個具有挑戰性的序列,并使用二進制分割掩碼作為真實標簽。我們使用 Alpha-Refine作為 ODTrack 的后處理網絡來預測分割掩碼。期望平均重疊率(EAO)指標用于評估所提出的跟蹤器和其他先進跟蹤器。如表 III 所示,我們的 ODTrack384 和 -L384 在掩碼評估上取得了最佳結果,EAO 分別為 58.1% 和 60.5%。在 EAO 指標上,與未探索時序關系的跟蹤器(即 SBT 和 Ocean+)相比,ODTrack 分別優于 6.6% 和 9%。這些結果表明,通過注入時序令牌注意力,我們的 ODTrack 在復雜跟蹤場景中具有魯棒性。
TNL2K 和 OTB100。在 TNL2K 和 OTB100 基準上評估了我們的跟蹤器。它們分別包含 700 和 100 個視頻序列。表 II 中的結果顯示,ODTrack384 和 -L384 在 TNL2K 和 OTB100 基準上取得了最佳性能。例如,我們的 ODTrack384 在 TNL2K 和 OTB100 數據集上分別獲得了 60.9% 和 72.3% 的 AUC 分數。在 TNL2K 數據集上,與 ARTrack 相比,ODTrack 優于其 1.1%。同時,與非自回歸跟蹤器 Mixformer 相比,我們的 ODTrack 在 OTB100 數據集上的 AUC 分數高出 2.3%。可以觀察到,通過采用有趣的自回歸建模方法來捕獲時序上下文,我們的 ODTrack 能夠降低模型復雜性并提高性能。
DepthTrack。DepthTrack包含 150 個訓練和 50 個測試 RGB-D 長期視頻序列。如下表 IV 所示,我們在其上將我們的模型與現有的 SOTA RGB-D 跟蹤器進行了比較。在相同的圖像分辨率設置下,我們的 UM-ODTrack256 在跟蹤精度(Pr)、召回率(Re)和 F-score 上分別優于 ViPT 1.1%、2.6% 和 1.8%。此外,由于提出的高效門控注意力機制,我們的 UM-ODTrack384 在 RGB-D 跟蹤領域取得了 SOTA 性能。值得注意的是,當輸入尺寸從 256 增加到 384 時,UM-ODTrack 在性能上取得了大幅提升。這表明我們結合大輸入分辨率的時序關聯方法在多模態長期跟蹤場景中尤為重要。

VOT-RGBD2022。VOT-RGBD2022是一個短期跟蹤數據集,包含 127 個 RGB-D 視頻序列。如下表 V 報告,與大多數其他跟蹤算法相比,我們的跟蹤器取得了新的最先進結果。具體來說,我們的 UM-ODTrack256 在 EAO、準確性和魯棒性指標上分別獲得了 78.0%、81.4% 和 94.8% 的分數。與最新的統一跟蹤器 Un-Track 相比,我們的 UM-ODTrack256 在期望平均重疊率(EAO)和魯棒性分數上分別實現了 5.9% 和 7.9% 的提升。這表明我們的統一建模技術對于通用特征學習更有效,并且可以為每種模態(即深度模態)提供合適且穩定的特征空間。

LasHeR。LasHeR 是一個大規模 RGB-T 跟蹤數據集,包含 245 個短期測試視頻序列。結果報告在下圖 7 中,我們的 UM-ODTrack 取得了令人驚訝的結果,顯著優于先前的 SOTA RGB-T 跟蹤算法,在成功圖和精度圖上分別超過第二名 4.5% 和 6.3%。這些結果符合我們的預期,即基于門控注意力機制的特征學習可以自適應地提取和融合不同模態的特征,以提高多模態跟蹤性能。同時,為了驗證我們的門控感知器能夠有效解決包括遮擋(NO)、部分遮擋(PO)、完全遮擋(TO)、低光照(LI)、低分辨率(LR)、形變(DEF)、背景干擾(BC)、運動模糊(MB)、熱交叉(TC)、相機移動(CM)、快速運動(FM)、尺度變化(SV)、透明遮擋(HO)、高光照(HI)、突然光照變化(AIV)、相似外觀(SA)、縱橫比變化(ARC)、出視野(OV)和幀丟失(FL)在內的多種挑戰,我們展示了 LasHeR 數據集的屬性評估結果。如圖 6 所示,我們的 UM-ODTrack 在每個屬性上都表現良好。因此,可以表明我們帶有門控感知器的視頻級多模態建模方案能夠有效地統一和融合多模態特征,從而使我們的跟蹤器能夠很好地解決復雜的跟蹤場景。

RGBT234。RGBT234 包含 234 個 RGB-T 跟蹤視頻,約 116.6K 個圖像對。如下圖6 所示,UM-ODTrack256 在 SR 和 PR 指標上分別獲得了 69.2% 和 91.5% 的分數。與高性能 RGB-T 專家跟蹤器 BAT 相比,我們的方法取得了良好的跟蹤結果,在成功圖和精度圖上分別優于 5.1% 和 4.7%。這意味著我們的 GMP 模塊可以有效地聚合來自熱紅外模態的目標信息,實現魯棒的多模態跟蹤。

VisEvent。VisEvent 是最大的 RGB-E 跟蹤基準,包含 320 個測試視頻。比較結果如圖 8 所示。我們的 UM-ODTrack384 取得了新的 SOTA 跟蹤結果,成功分數和精度分數分別為 62.4% 和 81.3%。可以看出,我們配備門控模態可擴展感知器(GMP)模塊的 UM-ODTrack 在事件場景中也實現了精確跟蹤。這與我們的直覺一致,即 GMP 模塊可以輕松擴展到不同的模態跟蹤場景,并有效改善多模態特征的表示。
C. 消融研究
令牌關聯的有效性。為了研究等式 11 中令牌關聯的效果,我們在表 VII 中進行了是否傳播時序令牌的實驗。w/o Token 表示采用視頻級采樣策略但沒有令牌關聯的實驗。從第二行和第三行可以觀察到,缺少令牌關聯機制導致 AUC 分數下降 1.2%。這一結果表明令牌關聯在跨幀目標關聯中起著至關重要的作用。此外,我們在表 VII 中進行實驗,以驗證視頻級跟蹤框架中提出的兩種令牌關聯方法的有效性。我們可以觀察到,分離和拼接方法都實現了顯著的性能提升,其中拼接方法顯示出稍好的結果。這證明了兩種注意力機制的有效性。
搜索視頻片段的長度。如下表 VIII 所示,消融了搜索視頻序列長度對跟蹤性能的影響。當視頻片段長度從 2 增加到 3 時,AUC 指標提高了 0.3%。然而,序列長度的持續增加并未帶來性能提升,表明過長的搜索視頻片段會給模型帶來學習負擔。因此,我們應選擇適當的搜索視頻片段長度。此外,為了評估序列長度對多模態跟蹤性能的影響,在 LasHeR, DepthTrack和 VisEvent 基準上進行了對比實驗,如表 XVI 所示。視頻序列長度的選擇對于利用時序信息至關重要。當序列長度從 2 增加到 3 時,我們的跟蹤器在 LasHeR, DepthTrack 和 VisEvent 基準上的 SR 和 F-score 分別提高了 0.7%, 0.2% 和 1.6%。這些增益來自于通過多幀信息有效建模目標外觀變化和運動軌跡。然而,當序列長度超過 3 時,由于跨模態時序噪聲的積累,性能趨于穩定或略有下降。這證實了適當選擇的序列長度可以提供互補信息,而過長的序列更可能引入冗余或有噪聲的上下文信號。因此,我們的 UM-ODTrack 采用序列長度 3 作為最佳設置,以在合適的時間跨度內捕獲上下文信息。


采樣范圍。為了驗證采樣范圍對算法性能的影響,在下表 IX 中對視頻幀的采樣范圍進行了實驗。當采樣范圍從 200 擴大到 1200 時,AUC 指標的性能有顯著提高,表明視頻級框架能夠從更大的采樣范圍學習目標軌跡信息。

門控感知器和門控激活函數的有效性。我們進行實驗以驗證在通用模態感知跟蹤框架下提出的兩個組件,即條件門控和門控模態可擴展感知器(GMP)的有效性,如下表 X 所示。基線方法指的是 ODTrack 的雙流版本。通過將條件門控模塊添加到基線中,我們的跟蹤器在三個下游跟蹤數據集上的性能得到了改善。例如,配備條件門控的跟蹤器在 DepthTrack 基準上的 F-score 指標實現了 1.3% 的提升。此外,通過將 GMP 納入我們的模型,其性能得到進一步改善。這證明了我們提出的兩個門控模塊的有效性。此外,為了研究門控激活函數的效果,在表 XIII 中使用了不同的門控激活函數進行實驗。與 ReLU 和 sigmoid 相比,tanh 激活函數表現最佳。這一結果表明,在我們的門控感知器中,tanh 門控函數更適合學習和表示通用的多模態跟蹤任務,可能提供更好的泛化能力。


條件門控和 GMP 的層數。分別比較了條件門控和 GMP 的層數對模型的影響。實驗結果記錄在表 XI 和表 XII 中。對于條件門控,隨著層數的增加,我們跟蹤器的性能相應提高。這意味著在通用模態編碼器中集成更多層有助于學習多模態表示。另一方面,當在 GMP 模塊中使用三層或六層時,我們的 UM-ODTrack 取得了良好的跟蹤結果。為了平衡速度和性能,我們選擇使用三層配置。
多模態線索的重要性。為了驗證在視覺跟蹤中融合 RGB 幀與其他模態幀的有效性,我們報告了 UM-ODTrack 上僅使用 RGB 數據和雙模態數據的跟蹤結果。如表 XIV (#1 和 #5) 所示,當僅使用 RGB 幀時,我們的跟蹤器在三個下游基準上表現出顯著的性能下降。例如,在 LasHeR 數據集中,SR 和 PR 指標分別下降了 6.3% 和 7.2%,表明多模態線索的注入(或多模態融合)對于多模態跟蹤是顯著有效且至關重要的。
共享模態標記器的重要性。我們比較了共享和非共享標記器對多模態跟蹤性能的影響。在實驗中,我們使用共享和非共享標記器對多模態數據進行編碼,并將編碼后的數據輸入跟蹤模型進行訓練和推理。共享標記器是指使用統一的標記器對所有模態的數據進行編碼,而非共享標記器則涉及對每種模態使用不同的標記器。如表 XIV (#2 和 #5) 所示,我們發現共享標記器的跟蹤性能更優。這表明共享標記器可以更有效地捕捉多模態數據之間的相關性,從而提升我們跟蹤器的整體性能。
完全微調 vs. 適配器/提示微調。如圖 12 所示,探索了使用不同訓練策略(例如適配器微調和完全微調)來訓練我們模型的實驗。實驗結果記錄在表 XIV (#3 和 #5) 中。可以觀察到,適配器微調和完全微調策略都取得了良好的性能提升,其中完全微調顯示出稍好的結果。理論上,具有較少學習參數的適配器微調可以節省更多 GPU 資源。然而,在實踐中,由于其他模型參數在訓練期間保留了梯度,其訓練資源并未顯著減少,這與完全微調方案相當。因此,我們選擇具有更多學習參數的完全微調作為我們的訓練策略。
多任務一次性訓練 vs. 單任務獨立訓練。為了評估多任務統一(一次性)訓練對我們最終模型的好處,我們為三個子跟蹤任務獨立訓練了專家模型,如表 XIV 所示。#4 和 #5 的比較結果表明,我們的一次性訓練方案帶來了顯著的性能提升。例如,僅在 DepthTrack 數據集上訓練的模型達到了 67.8% 的 F-score,而在 DepthTrack, LasHeR 和 VisEvent 上聯合訓練的模型則達到了 69.3% 的更高 F-score,提升了 1.5%。將此改進歸因于每個模態跟蹤任務可用訓練數據數量和多樣性的增加,以及設計的門控感知器在聚合多模態特征方面的有效性。這些因素共同增強了我們統一多模態跟蹤模型在各種跟蹤場景中的魯棒性和泛化能力。
模態權重比率。我們進行了一項比較研究,如表 XV 所示,以評估不同模態權重對模型性能的影響。如結果所示,跟蹤器的變體在不同權重方案下表現一致良好。例如,在權重配置為 depth: infrared: event = 2:1:1 時,我們的模型在 DepthTrack, LasHeR 和 VisEvent 數據集上分別實現了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。這些發現表明,我們的方法對模態的具體權重不高度敏感。因此,等權重方案(depth: infrared: event = 1:1:1)可以有效地平衡每個模態的貢獻,并作為我們模型的一個魯棒的默認配置。
D. 定性分析
速度、FLOPs 和參數量分析。在模型參數量、FLOPs 和推理速度方面進行了對比實驗,如表 XVII 所示。在相同的測試機器(即 2080Ti)上,ODTrack 與最新的跟蹤器 SeqTrack 相比獲得了更快的推理速度。我們的跟蹤器運行速度為 32 fps。
可視化。對于 RGB 跟蹤任務,為了直觀展示我們方法的有效性,特別是在包含相似干擾物的復雜場景中,在 LaSOT 上可視化了ODTrack 和三個先進跟蹤器的跟蹤結果。如圖 9 所示,由于其能夠密集傳播目標的軌跡信息,我們的跟蹤器在這些序列上遠遠優于最新的跟蹤器 SeqTrack。
對于多模態跟蹤任務,我們分別在 LasHeR, DepthTrack 和 VisEvent 數據集上可視化了我們的 UM-ODTrack 和其他 SOTA 跟蹤器的多模態跟蹤結果,如圖 11 所示。受益于門控感知器對任意模態的通用感知能力,與其他多模態跟蹤器相比,我們的 UM-ODTrack 能夠在復雜序列中準確定位目標。同時,我們比較了帶有和不帶門控模態可擴展感知器(GMP)的特征表示。如圖 13 所示,在沒有 GMP 模塊的情況下,模型缺乏捕捉模態間相關性的能力,導致學習到的表示常常關注與目標相似的干擾物。相比之下,當配備包含基于注意力的門控機制的 GMP 模塊時,本文的跟蹤器在復雜的多模態跟蹤場景中有效抑制了此類干擾,使模型能夠更準確地聚焦于目標對象。
此外,可視化了時序令牌注意力操作的注意力圖,如圖 10 所示。我們可以觀察到時序令牌持續傳播并關注物體的運動軌跡信息,這有助于我們的跟蹤器準確定位目標實例。
結論
本工作探索了一個有趣的視頻級視覺目標跟蹤框架,稱為 ODTrack。將視覺跟蹤重新定義為一個令牌傳播任務,以自回歸的方式密集關聯跨視頻幀的上下文關系。此外,為了從單模態感知擴展到多模態感知,提出了 UM-ODTrack,一個通用的視頻級模態感知視覺跟蹤框架,通過設計門控注意力機制有效聚合目標實例的多模態時序信息。具體來說,設計了一種視頻序列采樣策略和兩種時序令牌傳播注意力機制,使得所提出的框架能夠簡化視頻級時空建模并避免復雜的在線更新策略。此外,提出了兩個門控模態可擴展感知器來聚合來自各種模態的目標時空信息。最后,本模型可以通過一次性訓練方案,使用同一套模型參數同時推理不同的多模態跟蹤任務。大量實驗表明,UM-ODTrack 在七個可見光跟蹤和五個多模態跟蹤基準上取得了優異的結果。期望 ODTrack 和 UM-ODTrack 能成為通用視頻級模態感知跟蹤的強大基線,激發可見光跟蹤和多模態跟蹤領域的進一步研究。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/-93wVFwaPsPfk0wX21zydA??

















