750城市+5000小時第一人稱視頻,上海AI Lab開源面向世界探索高質量視頻數據集
LeCun、李飛飛力挺的世界模型,想要實現,高質量數據是關鍵,也是難點。
現在,國內研究機構就從數據基石的角度出發,拿出了還原真實動態世界的新進展:
上海人工智能實驗室、北京理工大學、上海創智學院、東京大學等機構聚焦世界生成的第一步——世界探索,聯合推出一個持續迭代的高質量視頻數據集項目——Sekai(日語意為“世界”),服務于交互式視頻生成、視覺導航、視頻理解等任務,旨在利用圖像、文本或視頻構建一個動態且真實的世界,可供用戶不受限制進行交互探索。

它匯聚了來自全球101個國家和地區、750多座城市的超過5000小時第一人稱行走與無人機視角真實世界或游戲視頻,配有精細化的標簽,涵蓋文本描述、地點、天氣、時間、人群密度、場景類型與相機軌跡等重要信息。總的來說,具有視頻質量高、視頻時間長、視角多樣、地域豐富及多維度標簽等特點。
團隊還利用Sekai部分數據,訓練了一個初步的交互式視頻世界探索模型——Yume(日語意為“夢”)。Yume在輸入圖片的基礎上,通過交互式鍵鼠操作(移動、視角轉動)自回歸形式地控制生成視頻。
Sekai-Real與Sekai-Game
Sekai通過精心收集YouTube視頻和游戲內高清影像,形成了兩個互為補充的數據集:面向真實世界的Sekai-Real(YouTube視頻)和面向虛擬場景的Sekai-Game(游戲視頻)。
在Sekai-Real數據集中,團隊從超過8600小時的YouTube第一人稱行走和無人機視頻中嚴格篩選,確保原始視頻分辨率不低于1080P,幀率高于30FPS,且碼率較高;所有視頻均發布于近3年內,場景新穎且貼近現實。此外,視頻保留了原生立體聲,以完整呈現真實世界的聲音環境。
為進一步提升數據質量,團隊設計了綜合考慮視頻畫質、內容多樣性、地點、天氣、時間、相機運動軌跡等多個維度的采樣模塊,優中取優提取了超過300小時的子集Sekai-Real-HQ。
而Sekai-Game數據集則來源于虛幻引擎5打造的高擬真游戲《Lushfoil Photography Sim》。該游戲具有逼真的光影效果與統一的影像規格。團隊實機操作并錄制超過60小時的游戲實況視頻,同時開發工具鏈精確獲取“真值”的坐標、天氣與相機運動軌跡等信息。
構建Sekai數據集整體流程包括以下四個關鍵環節:
視頻收集階段:團隊從YouTube共收集8623小時視頻,從游戲中錄制超過60小時視頻。
預處理階段:經過處理后,分別得到6620小時Sekai-Real與40小時Sekai-Game。
- 鏡頭邊界檢測:使用PyNVideoCodec庫加速視頻解碼,同時利用CVCUDA庫在GPU端高效進行顏色空間轉換和直方圖計算等圖像處理,每個鏡頭前后各裁剪5秒,最終得到時長在1小時到近6小時的視頻片段。
- 剪輯提取與轉碼:團隊將視頻片段統一編碼為H.265MP4格式,720p分辨率,30fps幀率,4Mbps碼率,以標準化視頻數據。
- 視頻過濾:通過亮度評估、視頻質量評分、硬字幕檢測等方法去除低質量片段。此外,對Sekai-Real部分帶有相機軌跡標注的數據,團隊還設計了相應的異常檢測算法,排除了相機軌跡存在劇烈反轉、視角突變或位移異常的片段。
視頻標注階段:對于Sekai-Real,團隊運用大型視覺語言模型高效地進行視頻標注。
- 位置標注:利用Google YouTube數據API獲取視頻元信息,結合GPT-4o模型精準解析區域、城市與國家的結構化位置信息。
- 類別與描述標注:團隊采用兩階段策略進行精細標注。首先從場景類型、天氣、時間、人群密度四個維度進行分類;其次,結合視頻幀與分類結果,使用Qwen 2.5-VL生成詳盡的、平均長度176字的視頻逐時序描述。
- 相機軌跡標注:使用改進的MegaSaM在超過600小時的樣本上提取相機軌跡。
采樣階段:考慮到完整Sekai-Real數據集訓練成本高昂,團隊開發了一套綜合視頻質量、多樣性(包括內容、地點、類別、相機軌跡)的采樣策略,從而獲得優中取優的Sekai-Real-HQ子集,用于進一步的模型訓練。
對于Sekai-Game,作者團隊開發了腳本系統,從游戲引擎中直接獲取精確的標注信息,例如天氣,相機軌跡等。與Sekai-Real類似,采集到的數據經過分段剪輯、轉碼、過濾處理后,最終得到約36小時具備精確標注的游戲視頻數據。
數據呈現
最終數據具備以下特點:
視頻規格:片段時長從1分鐘到近6小時,平均時長18.5分鐘,Sekai-Real含立體聲音軌。
位置信息:精準解析區域、城市、國家三級結構化信息。
內容分類:涵蓋場景類型、天氣、晝夜、人群密度四大維度。
視頻描述:逐時序視頻描述平均176字,結合分類標簽生成。
相機軌跡:精確標注真實與虛擬數據的相機軌跡信息。
研究團隊表示,希望Sekai成為推動世界建模與多模態智能的重要數據基石,廣泛助力于世界生成、視頻理解與預測、 文本圖片生成視頻、視聽協同建模、自主導航與仿真等領域。未來將繼續以實現真實且豐富的時空穿行體驗為目標,不斷迭代與優化Sekai與Yume項目。
文章鏈接:https://arxiv.org/abs/250
項目主頁:https://lixsp11.github.io/sekai-project/
數據下載:https://huggingface.co/datasets/Lixsp11/Sekai-Project
項目代碼:https://github.com/Lixsp11/sekai-codebase


























