首個3D動作游戲專用VLA模型,打黑神話&只狼超越人類玩家 | ICCV 2025
3B多模態大模型在動作角色扮演游戲的戰斗任務中,成功率超越GPT-4o和人類玩家,淘天集團未來生活實驗室團隊提出了CombatVLA,已被ICCV 2025接收。
在復雜的三維環境中實現實時決策仍面臨重大挑戰,要求模型能在秒級時間尺度做出響應,具備高分辨率感知能力,并能夠在動態條件下進行戰術推理。
如下圖所示,團隊給出了CombatVLA推理得到的AoT解釋、解析成Python代碼的動作指令,以及執行這些動作后的幀序列。前三行案例來自“黑神話:悟空”,第四行為“只狼:影逝二度”。
△測試案例可視化
- 第一行中,CombatVLA檢測到自身血量較低,于是先將角色后撤到安全位置,然后按“r”鍵進行回血操作。
- 第二行中,CombatVLA判斷定身技能可用,便按下“1”鍵定身敵人,并立即發動連招,大幅削減敵人血量。
- 第三行展示了模型有效閃避敵人攻擊,并抓住時機用蓄力重擊進行反擊。
- 第四行中,在SSDT場景下,CombatVLA先用格擋動作抵御攻擊,隨后用輕攻擊發動忍殺,一擊擊敗敵人。
具體而言,CombatVLA是一個3B級別的模型,通過動作追蹤器收集的視頻-動作對進行訓練,數據被格式化為“動作思維”(action-of-thought, AoT)序列。隨后,CombatVLA無縫集成進動作執行框架,并通過截斷AoT策略實現高效推理。
實驗結果表明,CombatVLA不僅在戰斗理解基準測試中超越了所有現有模型(如GPT-4o等),還在游戲戰斗中實現了50倍的加速。此外,CombatVLA的任務成功率也高于人類玩家。

一. CombatVLA概覽
視覺-語言-動作模型(VLA)結合視覺、語義和動作控制,推動具身智能發展。盡管這類模型在UI操作和導航任務表現優異,但3D戰斗場景(如“黑神話:悟空”和“只狼:影逝二度”)仍面臨三大挑戰:
1)視覺感知(如敵我定位、運動、環境感知);2)戰斗推理(識別敵方攻擊模式等);3)高效推理(實時響應),目前尚無框架在這些任務上表現突出,也缺乏有效的戰斗理解評測基準。
且當前方案存在明顯缺陷——基于強化學習方法操控游戲的方法們僅憑視覺輸入,通過DQN和PPO等算法訓練智能體自主學習戰斗,但需要大量預設獎勵和反復試錯,泛化能力弱。
依賴超大模型(如GPT-4o)的方法們推理延遲較高,有時高達60-90秒,嚴重影響實時戰斗表現,難以落地應用。
為解決這些問題,團隊提出了CombatVLA——首個高效3D戰斗智能專用VLA模型。
CombatVLA基于3B參數規模,能處理視覺輸入并輸出一系列具體可執行的動作指令(支持鍵鼠操作),實現高效戰斗決策。團隊首先開發了動作跟蹤器自動采集大規模訓練數據,
數據被加工為“動作思維”(Action-of-Thought, AoT)格式,方便模型理解和推理戰斗動作。
接下來,CombatVLA采用漸進式學習范式,逐步從視頻級到幀級優化動作生成。
最終,模型可嵌入動作執行機器人中,并通過自定義截斷輸出策略加速推理。
實驗表明,CombatVLA在戰斗理解準確率上超過現有大模型,在執行速度上也實現了50倍提升。
本文主要貢獻如下:
- 動作跟蹤器:開發了一套后臺自動記錄玩家動作的工具,大幅提升數據采集效率,為后續研究提供基礎。
- 戰斗理解基準:基于動作跟蹤器建立了CUBench評測集,通過VQA任務測試模型的敵方識別和動作推理能力。
- AoT數據集:提出分三階段(視頻粗粒度/幀級細粒度/幀級截斷)構建AoT數據,助力模型漸進學習戰斗技能。
- CombatVLA模型:結合自適應動作權重損失,經過漸進式訓練,在戰斗理解基準上達到最優。
- 動作執行框架:將CombatVLA無縫嵌入PC端執行,實現基于截斷策略的50倍加速。

△CombatVLA在CUBench和任務級實際評測中均達到最優性能
二. 動作追蹤器和評測基準
團隊開發了一個動作跟蹤器,用于收集游戲中的人類動作序列,為戰斗理解模型提供了大量訓練數據。此外,團隊還基于該動作跟蹤器建立了一個全面的戰斗理解benchmark,涵蓋三個不同任務。

△戰斗理解評測基準 - CUBench
2.1 動作跟蹤器
由于標注動作的數據極其稀缺,團隊開發了一個高效收集視頻-動作對的輕量級Python工具,稱為動作跟蹤器。
該工具可以在后臺運行,監控鍵盤和鼠標操作以記錄用戶動作,并同步截取游戲截圖。
2.2 評測基準
為了讓基于VLM或VLA的模型在3D ARPG游戲中有良好表現,必須具備高維視覺感知和戰斗語義理解能力。
因此,團隊基于三項核心能力(信息獲取、理解、推理)構建了戰斗理解評測基準——CUBench,用于評估模型的戰斗智商。
分別為:單圖判斷、多圖判斷和多圖多選,團隊匯總出914條數據(39.4%為信息獲取,22.3%為理解,38.3%為推理),用于全面測試模型的戰斗理解能力。
三.CombatVLA模型

△動作跟蹤器、AoT數據集、CUBench、CombatVLA模型和動作執行框架
3.1 Action-of-Thought數據集
受CoT啟發,團隊將動作跟蹤器采集的數據轉化為“動作思維”數據,如下圖所示。具體而言,模型的輸出以JSON格式表達,包含[action](如“按下空格鍵”)以及[explanation](用于描述當前敵人狀態、該動作的物理含義等)。
此外,還引入特殊標記?TRUNC?,用于實現輸出截斷,以提高推理速度。

△數據集和訓練范式
3.2 三階段漸進式訓練
CombatVLA的訓練過程遵循三級漸進式學習范式,使模型能夠逐步掌握戰斗策略。具體分為:
階段1:視頻級粗粒度AoT微調。
該階段旨在讓模型初步理解戰斗環境,數據以若干幀組成的視頻為單元,結合每幀對應的動作(時間并不精確對齊)。
這樣,模型需要根據整體視頻內容推測動作,有助于建立對戰斗整體的初步認知,也便于后續穩定訓練。
階段2:幀級細粒度AoT微調。
在3D戰斗游戲中,模型需要具備秒級反應和快速決策能力。
此階段構建了動作與若干前序幀嚴格對齊的數據對(Frames-AoT),幫助模型理解動作前因后果及戰斗邏輯。
例如,連續幾幀內敵方蓄力攻擊,則模型可能觸發閃避行為。
階段3:幀級截斷AoT微調。
大模型推理速度與輸出長度相關,為提升實時響應,團隊引入了?TRUNC?特殊標記,對AoT輸出內容進行截斷加速。
這樣既保留了AoT帶來的推理優勢,又顯著提升了模型推理速度。
整個訓練過程中,視覺編碼器參數凍結,僅微調語言模型參數。
在前兩階段中,AoT的[explanation]置于[action]前面,便于模型推理出正確的動作;在第三階段,AoT的[explanation]置于[action]后面,便于模型進行快速截斷,以實現推理加速。
3.3 動作執行框架
(1)基于VLA的智能體框架。
為讓視覺語言模型(VLM)能夠像人類一樣玩電腦游戲,團隊開發了一個輕量級且高效的動作執行智能體。
在實際運行中,框架接收實時游戲畫面(視頻)作為輸入,輸出則是具體的鍵鼠動作指令,實現對游戲角色的自動控制。
團隊對實時游戲畫面進行幀采樣,去除冗余視覺信息,降低VLM推理負擔。模型推理采用截斷輸出策略,提取有效動作并執行。
(2)截斷推理與執行。
推理過程中,每生成一個新輸出token就進行監控,一旦檢測到特殊的?TRUNC?標記即停止,將之前的內容解析為動作。這大大加快了推理速度。
最后,利用“pyautogui”庫將動作轉換為Python代碼,自動完成鍵盤鼠標操作,讓角色完成戰斗任務。
四.實驗結果
4.1 實現細節
(1)數據集
團隊選用了“黑神話:悟空(BMW)”和“只狼:影逝二度(SSDT)”兩款游戲作為實驗平臺。
標注人員根據難度將13個戰斗任務分為四個等級:簡單、中等、困難和極難(如下表所示)。
團隊通過動作跟蹤器在“黑神話:悟空”的第9和第10任務中收集訓練數據。AoT涵蓋10種動作,包括“wsad”移動、“shift”沖刺、“space”翻滾(只狼中為格擋防御)、“r”回血、“1”定身、鼠標左鍵普攻、鼠標右鍵長按重擊等,這些動作可以組合使用。
△任務定義
(2)基準測試
團隊用戰斗理解基準(CUBench)、通用基準(如MME、VideoMME、OCRBench)和任務級實際評測作為評測方式。
在任務級實戰測試中,動作執行框架直接操控PC進行戰斗,每個基線模型對每個任務測試10次,以擊敗敵人為成功,否則為失敗,記錄成功率和平均推理時長。
值得注意的是,團隊的CombatVLA只在極難任務(9和10)上微調,測試時將簡單到困難難度的任務(1–8, 同一游戲的不同任務)及其他游戲的任務(11–13)作為零樣本(zero-shot)測試,以考察泛化能力。
4.2 定量實驗結果
△戰斗理解和通用基準評測結果
(1)戰斗理解評測。在CUBench上,CombatVLA取得了63.61的最高平均分,比第二名Gemini-2.0-flash高出5.71分,較原始基座Qwen2.5-VL-3B高出7.74分,顯著提升了模型的戰斗理解能力。
(2)通用基準評測。CombatVLA在MME、VideoMME和OCRBench等通用基準上的表現依然與基座模型Qwen2.5-VL-3B相當,驗證了團隊方法的穩健性和泛化能力。
(3)任務級實際評測。團隊將CombatVLA接入動作執行代理,讓其像人類一樣自動完成戰斗任務。如下圖所示,CombatVLA不僅在簡單任務接近人類外,在中高難度任務上全面超越基線,并在零樣本任務上也展現出較強的泛化能力。

△任務級實際評測結果
(4)推理延遲。團隊還統計了平均推理延遲和每次動作所需模型調用次數(見下表)。CombatVLA平均推理延遲僅1.8秒,且只需一次模型調用,比VARP快約50倍,模型調用成本僅為其1/10。

△推理延遲和調用次數比較
結束語
本文針對當前視覺語言模型(VLMs)或視覺-語言-動作模型(VLAs)在3D動作角色扮演游戲中缺乏秒級響應、高分辨率感知和戰術推理能力的問題,提出了CombatVLA模型。
該模型規模為3B,采用AoT序列訓練,并引入動作對齊損失和模態對比損失進行優化。
CombatVLA可無縫集成到動作執行框架中,通過截斷AoT策略實現高效推理。
實驗結果表明,CombatVLA在戰斗理解基準上全面超越現有模型,同時具備良好的泛化能力,并在實時戰斗場景中實現了50倍速度提升。
未來,團隊將進一步增強模型對游戲場景的理解能力,拓展其在更多類型游戲甚至物理世界中的應用。
論文鏈接:https://arxiv.org/pdf/2503.09527
項目主頁:https://combatvla.github.io/
開源信息:https://combatvla.github.io/






























