首個3D動作游戲專用VLA模型，打黑神話&只狼超越人類玩家 | ICCV 2025

2025-08-19 16:08:20

在復雜的三維環境中實現實時決策仍面臨重大挑戰，要求模型能在秒級時間尺度做出響應，具備高分辨率感知能力，并能夠在動態條件下進行戰術推理。

3B多模態大模型在動作角色扮演游戲的戰斗任務中，成功率超越GPT-4o和人類玩家，淘天集團未來生活實驗室團隊提出了CombatVLA，已被ICCV 2025接收。

如下圖所示，團隊給出了CombatVLA推理得到的AoT解釋、解析成Python代碼的動作指令，以及執行這些動作后的幀序列。前三行案例來自“黑神話：悟空”，第四行為“只狼：影逝二度”。

△測試案例可視化

第一行中，CombatVLA檢測到自身血量較低，于是先將角色后撤到安全位置，然后按“r”鍵進行回血操作。
第二行中，CombatVLA判斷定身技能可用，便按下“1”鍵定身敵人，并立即發動連招，大幅削減敵人血量。
第三行展示了模型有效閃避敵人攻擊，并抓住時機用蓄力重擊進行反擊。
第四行中，在SSDT場景下，CombatVLA先用格擋動作抵御攻擊，隨后用輕攻擊發動忍殺，一擊擊敗敵人。

具體而言，CombatVLA是一個3B級別的模型，通過動作追蹤器收集的視頻-動作對進行訓練，數據被格式化為“動作思維”（action-of-thought, AoT）序列。隨后，CombatVLA無縫集成進動作執行框架，并通過截斷AoT策略實現高效推理。

實驗結果表明，CombatVLA不僅在戰斗理解基準測試中超越了所有現有模型（如GPT-4o等），還在游戲戰斗中實現了50倍的加速。此外，CombatVLA的任務成功率也高于人類玩家。

一. CombatVLA概覽

視覺-語言-動作模型（VLA）結合視覺、語義和動作控制，推動具身智能發展。盡管這類模型在UI操作和導航任務表現優異，但3D戰斗場景（如“黑神話：悟空”和“只狼：影逝二度”）仍面臨三大挑戰：

1）視覺感知（如敵我定位、運動、環境感知）；2）戰斗推理（識別敵方攻擊模式等）；3）高效推理（實時響應），目前尚無框架在這些任務上表現突出，也缺乏有效的戰斗理解評測基準。

且當前方案存在明顯缺陷——基于強化學習方法操控游戲的方法們僅憑視覺輸入，通過DQN和PPO等算法訓練智能體自主學習戰斗，但需要大量預設獎勵和反復試錯，泛化能力弱。

依賴超大模型（如GPT-4o）的方法們推理延遲較高，有時高達60-90秒，嚴重影響實時戰斗表現，難以落地應用。

為解決這些問題，團隊提出了CombatVLA——首個高效3D戰斗智能專用VLA模型。

CombatVLA基于3B參數規模，能處理視覺輸入并輸出一系列具體可執行的動作指令（支持鍵鼠操作），實現高效戰斗決策。團隊首先開發了動作跟蹤器自動采集大規模訓練數據，

數據被加工為“動作思維”（Action-of-Thought, AoT）格式，方便模型理解和推理戰斗動作。

接下來，CombatVLA采用漸進式學習范式，逐步從視頻級到幀級優化動作生成。

最終，模型可嵌入動作執行機器人中，并通過自定義截斷輸出策略加速推理。

實驗表明，CombatVLA在戰斗理解準確率上超過現有大模型，在執行速度上也實現了50倍提升。

本文主要貢獻如下：

動作跟蹤器：開發了一套后臺自動記錄玩家動作的工具，大幅提升數據采集效率，為后續研究提供基礎。
戰斗理解基準：基于動作跟蹤器建立了CUBench評測集，通過VQA任務測試模型的敵方識別和動作推理能力。
AoT數據集：提出分三階段（視頻粗粒度/幀級細粒度/幀級截斷）構建AoT數據，助力模型漸進學習戰斗技能。
CombatVLA模型：結合自適應動作權重損失，經過漸進式訓練，在戰斗理解基準上達到最優。
動作執行框架：將CombatVLA無縫嵌入PC端執行，實現基于截斷策略的50倍加速。

△CombatVLA在CUBench和任務級實際評測中均達到最優性能

二. 動作追蹤器和評測基準

團隊開發了一個動作跟蹤器，用于收集游戲中的人類動作序列，為戰斗理解模型提供了大量訓練數據。此外，團隊還基于該動作跟蹤器建立了一個全面的戰斗理解benchmark，涵蓋三個不同任務。

△戰斗理解評測基準 - CUBench

2.1 動作跟蹤器

由于標注動作的數據極其稀缺，團隊開發了一個高效收集視頻-動作對的輕量級Python工具，稱為動作跟蹤器。

該工具可以在后臺運行，監控鍵盤和鼠標操作以記錄用戶動作，并同步截取游戲截圖。

2.2 評測基準

為了讓基于VLM或VLA的模型在3D ARPG游戲中有良好表現，必須具備高維視覺感知和戰斗語義理解能力。

因此，團隊基于三項核心能力（信息獲取、理解、推理）構建了戰斗理解評測基準——CUBench，用于評估模型的戰斗智商。

分別為：單圖判斷、多圖判斷和多圖多選，團隊匯總出914條數據（39.4%為信息獲取，22.3%為理解，38.3%為推理），用于全面測試模型的戰斗理解能力。

三.CombatVLA模型

△動作跟蹤器、AoT數據集、CUBench、CombatVLA模型和動作執行框架

3.1 Action-of-Thought數據集

受CoT啟發，團隊將動作跟蹤器采集的數據轉化為“動作思維”數據，如下圖所示。具體而言，模型的輸出以JSON格式表達，包含[action]（如“按下空格鍵”）以及[explanation]（用于描述當前敵人狀態、該動作的物理含義等）。

此外，還引入特殊標記?TRUNC?，用于實現輸出截斷，以提高推理速度。

△數據集和訓練范式

3.2 三階段漸進式訓練

CombatVLA的訓練過程遵循三級漸進式學習范式，使模型能夠逐步掌握戰斗策略。具體分為：

階段1：視頻級粗粒度AoT微調。

該階段旨在讓模型初步理解戰斗環境，數據以若干幀組成的視頻為單元，結合每幀對應的動作（時間并不精確對齊）。

這樣，模型需要根據整體視頻內容推測動作，有助于建立對戰斗整體的初步認知，也便于后續穩定訓練。

階段2：幀級細粒度AoT微調。

在3D戰斗游戲中，模型需要具備秒級反應和快速決策能力。

此階段構建了動作與若干前序幀嚴格對齊的數據對（Frames-AoT），幫助模型理解動作前因后果及戰斗邏輯。

例如，連續幾幀內敵方蓄力攻擊，則模型可能觸發閃避行為。

階段3：幀級截斷AoT微調。

大模型推理速度與輸出長度相關，為提升實時響應，團隊引入了?TRUNC?特殊標記，對AoT輸出內容進行截斷加速。

這樣既保留了AoT帶來的推理優勢，又顯著提升了模型推理速度。

整個訓練過程中，視覺編碼器參數凍結，僅微調語言模型參數。

在前兩階段中，AoT的[explanation]置于[action]前面，便于模型推理出正確的動作；在第三階段，AoT的[explanation]置于[action]后面，便于模型進行快速截斷，以實現推理加速。

3.3 動作執行框架

（1）基于VLA的智能體框架。

為讓視覺語言模型（VLM）能夠像人類一樣玩電腦游戲，團隊開發了一個輕量級且高效的動作執行智能體。

在實際運行中，框架接收實時游戲畫面（視頻）作為輸入，輸出則是具體的鍵鼠動作指令，實現對游戲角色的自動控制。

團隊對實時游戲畫面進行幀采樣，去除冗余視覺信息，降低VLM推理負擔。模型推理采用截斷輸出策略，提取有效動作并執行。

（2）截斷推理與執行。

推理過程中，每生成一個新輸出token就進行監控，一旦檢測到特殊的?TRUNC?標記即停止，將之前的內容解析為動作。這大大加快了推理速度。

最后，利用“pyautogui”庫將動作轉換為Python代碼，自動完成鍵盤鼠標操作，讓角色完成戰斗任務。

四.實驗結果

4.1 實現細節

（1）數據集

團隊選用了“黑神話：悟空（BMW）”和“只狼：影逝二度（SSDT）”兩款游戲作為實驗平臺。

標注人員根據難度將13個戰斗任務分為四個等級：簡單、中等、困難和極難（如下表所示）。

團隊通過動作跟蹤器在“黑神話：悟空”的第9和第10任務中收集訓練數據。AoT涵蓋10種動作，包括“wsad”移動、“shift”沖刺、“space”翻滾（只狼中為格擋防御）、“r”回血、“1”定身、鼠標左鍵普攻、鼠標右鍵長按重擊等，這些動作可以組合使用。

△任務定義

（2）基準測試

團隊用戰斗理解基準（CUBench）、通用基準（如MME、VideoMME、OCRBench）和任務級實際評測作為評測方式。

在任務級實戰測試中，動作執行框架直接操控PC進行戰斗，每個基線模型對每個任務測試10次，以擊敗敵人為成功，否則為失敗，記錄成功率和平均推理時長。

值得注意的是，團隊的CombatVLA只在極難任務（9和10）上微調，測試時將簡單到困難難度的任務（1–8, 同一游戲的不同任務）及其他游戲的任務（11–13）作為零樣本（zero-shot）測試，以考察泛化能力。

4.2 定量實驗結果

△戰斗理解和通用基準評測結果

（1）戰斗理解評測。在CUBench上，CombatVLA取得了63.61的最高平均分，比第二名Gemini-2.0-flash高出5.71分，較原始基座Qwen2.5-VL-3B高出7.74分，顯著提升了模型的戰斗理解能力。

（2）通用基準評測。CombatVLA在MME、VideoMME和OCRBench等通用基準上的表現依然與基座模型Qwen2.5-VL-3B相當，驗證了團隊方法的穩健性和泛化能力。

（3）任務級實際評測。團隊將CombatVLA接入動作執行代理，讓其像人類一樣自動完成戰斗任務。如下圖所示，CombatVLA不僅在簡單任務接近人類外，在中高難度任務上全面超越基線，并在零樣本任務上也展現出較強的泛化能力。

△任務級實際評測結果

（4）推理延遲。團隊還統計了平均推理延遲和每次動作所需模型調用次數（見下表）。CombatVLA平均推理延遲僅1.8秒，且只需一次模型調用，比VARP快約50倍，模型調用成本僅為其1/10。

△推理延遲和調用次數比較

結束語

本文針對當前視覺語言模型（VLMs）或視覺-語言-動作模型（VLAs）在3D動作角色扮演游戲中缺乏秒級響應、高分辨率感知和戰術推理能力的問題，提出了CombatVLA模型。

該模型規模為3B，采用AoT序列訓練，并引入動作對齊損失和模態對比損失進行優化。

CombatVLA可無縫集成到動作執行框架中，通過截斷AoT策略實現高效推理。

實驗結果表明，CombatVLA在戰斗理解基準上全面超越現有模型，同時具備良好的泛化能力，并在實時戰斗場景中實現了50倍速度提升。

未來，團隊將進一步增強模型對游戲場景的理解能力，拓展其在更多類型游戲甚至物理世界中的應用。

論文鏈接：https://arxiv.org/pdf/2503.09527
項目主頁：https://combatvla.github.io/
開源信息：https://combatvla.github.io/

責任編輯：張燕妮來源：量子位

模型 AI 3D