騰訊混元開源游戲AI生成新工具!RTX 4090就能制作3A級動態內容
隨手拍的一張圖,就能秒變3A級游戲大作?!
剛剛,騰訊全新開源游戲視頻生成框架Hunyuan-GameCraft,專為游戲環境設計,讓任何人都能輕松搞定游戲制作。
無論是水墨風:

抑或是古希臘:

只要你想,統統都能滿足。
基于騰訊混元視頻生成HunyuanVideo搭建,可以實時生成流暢畫面。
操作也很so easy,只需要:單張場景圖+文字描述+動作指令=高清動態游戲視頻。

所以下面讓我們一起Game start!
實機演示
先來康康幾個生成案例嘗嘗鮮:
首先做一個中世紀的鄉村風格場景,畫面流暢自然,鏡頭隨第一視角動態移動。

Prompt:A picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.
或者試試多動作場景,可以在轉換視角的同時完成行走動作。

Prompt:A sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.
還能保持歷史一致性,移開鏡頭回來之后,場景不會出現變形情況。

Prompt:A medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape.
除了第一視角,也可以進行第三人稱視角生成。

Prompt:A dark, sleek car is driving down a winding road at night, its headlights illuminating the path ahead.
除了視角切換、場景轉換這類基礎生成能力,例如動態天氣(云層移動、雪花飄落)以及NPC互動等復雜內容,也能被Hunyuan-GameCraft一一實現。
那么具體是怎么做到的呢?
個人生產3A級動態內容
要知道,傳統的游戲視頻生成工具長期面臨三大瓶頸:
- 動作僵硬、場景靜態
角色移動機械單一,只能夠簡單的平移或轉身,且二者不能同時完成,整個運動范圍也都局限在非常小的區域。
場景依賴預渲染,一旦完成靜態3D場景構建,再對其進行改動,后續場景將失去動態能力。
- 長期一致性差
在切換視角后,原來的場景會改變甚至消失,歷史幀信息保留不足,缺乏記憶性。
- 生成成本高
由于使用人工建模完成,需要專業的3D人工建模團隊以及高端顯卡支持,成本昂貴,不利于普通消費者創作。

而Hunyuan-GameCraft憑借技術創新逐個擊破,三大核心優勢全覆蓋:
- 自由流暢:基于統一連續動作空間設計,支持高精度控制(如角度、速度),也能完成邊跑動邊轉換視角的復雜操作,動態內容生成(例如NPC互動、天氣變化、水流運動等)也不在話下,畫面相當流暢自然。
- 記憶增強:借助混合歷史條件建模,系統可以精準記憶歷史幀,確保長視頻內容一致性。
- 成本驟降:由于對推理步數進行壓縮,且實現量化13B模型,該架構僅需消費級顯卡RTX 4090即可運行,制作成本得以降低。另外相比現有的游戲模型閉源方案,其泛化能力更強。
Hunyuan-GameCraft的低門檻和開放性,讓它在各個領域都能廣泛適用,無論你是想游戲開發、視頻創作還是3D設計,自己一個人就能包圓整個3A級動態內容制作過程,而無需專業建模和渲染知識。
從離散用戶動作到連貫游戲視頻
Hunyuan-GameCraft在架構搭建過程中,精選上百款3A級游戲,如《刺客信條》、《荒野大鏢客:救贖》、《賽博朋克 2077》,作為游戲場景數據來源。

另外從已有的3D資源中渲染了約3000個高質量運動序列,系統重新采樣并構建合成數據,以彌補真實世界樣本的不足。
然后一方面對起始結束向量進行分層采樣,另一方面進行時間反轉增強,結合渲染數據微調,綜合提升控制信號的泛化能力和訓練穩定性。

整體模型以HunyuanVideo為基礎,通過四個關鍵技術模塊實現對用戶交互動作的精準響應和長序列視頻生成:
- 交互信號統一與編碼
模型將鍵盤(如W/A/S/D控制移動)和鼠標(如視角旋轉)等操作,通過6自由度相機參數(位置、方向、視野)量化為動作信號,再經過多層感知器(MLP)編碼,映射到共享的相機表示空間。
- 混合歷史條件建模
選取最近的關鍵幀作為條件輸入,保留場景細節(如物體位置、環境狀態),同時通過自回歸方式傳遞前序生成的隱向量,捕捉時間動態(如運動軌跡、速度變化)。
- 模型蒸餾與效率優化
采用知識蒸餾技術,以大模型(教師模型)的輸出分布為監督,訓練輕量級模型(學生模型),在減少參數量和計算量的同時,保持長時序一致性和生成質量。
- 擴散過程中的動作控制
將編碼后的交互信號與文本特征、歷史條件特征融合,通過交叉注意力機制注入每一時間步,確保生成的視頻幀嚴格響應操作指令。
然后在大規模真實游戲數據集上預訓練,再在合成數據集上微調,同時通過分布平衡策略優化數據分布。
將模型與當前視頻生成領域的主流模型進行多維度性能對比,實驗證明Hunyuan-GameCraft 的光流一致性得分比次優模型高18.3%,動作響應延遲低至87ms,PSNR/SSIM則在復雜場景中領先5%-12%。
主觀評估中,其真實感和可控性評分分別達到4.2/5和4.1/5,顯著高于其他模型(最高3.5/5),“愿意持續交互” 的比例達78%,是對比模型的1.5-2倍。

在細粒度控制任務中,能準確響應92%的離散動作輸入(如連續按 “左方向鍵” 實現平滑視角左轉),而基線模型平均準確率僅65%。

長時序生成中,10分鐘視頻的時空一致性誤差(物體位置偏移、場景突變)比對比模型低60%以上。

復雜動態場景 (如戰斗爆炸、快速追逐)生成中,視覺細節完整度和動作邏輯連貫性評分領先30%。
項目官網:https://hunyuan-gamecraft.github.io/
代碼:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
技術報告:https://arxiv.org/abs/2506.17201
Hugging Face:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0



































