空間智能版ImageNet來了！李飛飛吳佳俊團隊出品

作者：量子位 2024-11-11 08:30:00

人工智能新聞

HourVideo，一個用于評估多模態模型對長達一小時視頻理解能力的基準數據集，包含多種任務。

空間智能版ImageNet來了，來自斯坦福李飛飛吳佳俊團隊！

HourVideo，一個用于評估多模態模型對長達一小時視頻理解能力的基準數據集，包含多種任務。

通過與現有模型對比，揭示當前模型在長視頻理解上與人類水平的差距。

2009年，李飛飛團隊在CVPR上首次對外展示了圖像識別數據集ImageNet，它的出現極大推動計算機視覺算法的發展——懂CV的都是知道這里面的門道有多深。

現在，隨著多模態迅猛發展，團隊認為“現有的視頻基準測試，大多集中在特定領域或短視頻上”，并且“這些數據集的平均視頻長度較短，限制了對長視頻理解能力的全面評估”。

于是，空間智能版ImageNet應運而生。

HourVideo包含500個來自Ego4D數據集的第一人稱視角視頻，時長在20到120分鐘之間，涉及77種日常活動。

評測結果表示，人類專家水平顯著優于目前長上下文多模態模型中最厲害的Gemini Pro 1.5（85.0%對37.3%）。

在多模態能力上，大模型們還任重而道遠。

HourVideo如何煉成？

之所以提出HourVideo，是因為研究人員發現目前長視頻理解越來越重要，而現有評估benchmark存在不足。

多模態越來越卷，人們期待AI被賦予autonomous agents的類似能力；而從人類角度來看，由于人類具備處理長時間視覺處理的能力，因此能在現實視覺中感知、計劃和行動。

因此，長視頻理解對實現這一目標至關重要。

而當前的多模態評估benchmark，主要還是集中在評測單張圖像或短視頻片段（幾秒到三分鐘），對長視頻理解的探索還有待開發。

不可否認的是，AI評估長視頻理解面臨諸多挑戰，譬如要設計任務、避免通過先驗知識或簡短片斷回答等。

因此，團隊提出HourVideo。

這是一個為長視頻理解而設計的基準數據集。

為了設計出需要長期理解的任務，團隊首先提出了一個新的任務對應套件，包含總結、感知（回憶、跟蹤）、視覺推理（空間、時間、預測、因果、反事實）和導航（房間到房間、對象檢索）任務，共18個子任務。

其中，總結任務要求模型對視頻中的關鍵事件、主要交互等進行概括性描述，例如總結出脖子上掛了個相機的人在超市中有什么關鍵交互行為。

感知任務由兩部分構成，

一個是回憶任務，包括事實回憶（比如脖子上掛了個相機的人，在超市拿起的乳制品）和序列回憶（比如那個人在超市稱完西紅柿過后做了什么），以及對時間距離的判斷（比如吃了多久的披薩才扔掉盒子）。

還有一個是跟蹤任務，主要用來識別脖子上掛了個相機的人在特定場景（比如超市、藥店）中互動的獨特個體。

接下來是視覺推理任務，分為空間推理和時間推理。

空間推理負責判斷物體之間的空間關系、空間接近度（如微波爐與冰箱或水槽相比是否更近）以及空間布局（如選擇正確描繪脖子上掛相機的人的公寓的布局圖）。

時間推理則包括對活動持續時間的比較、事件發生頻率的判斷、活動的先決條件、預測（如洗完衣服后最可能做的活動）、因果關系（如第二次離開車庫的原因）以及反事實推理（如用烤箱做土豆泥會怎樣）。

導航任務包含了房間到房間的導航、對象檢索導航。

以上每個任務有精心設計的問題原型，以確保正確回答問題需要對長視頻中的多個時間片段進行信息識別和綜合，從而有效測試模型的長期理解能力。

與此同時，研究人員通過pipeline來生成了HourVideo數據集。

第一步，視頻篩選。

團隊從Ego4D數據集中手動審核1470個20到120分鐘的視頻，讓5位人類專家選擇了其中500個視頻，

至于為啥要從Ego4D中選呢，一來是其以自我為中心的視角與autonomous agents和助手的典型視覺輸入非常一致；二來是它具有廣泛的視覺敘述，有助于創建多樣化的題；三來Ego4D的訪問許可非常友好。

第二步，候選MCQ生成。

這需要在長視頻中跨多個時間片段，進行信息分析和合成。

具體來說，研究人員以20分鐘為間隔分割了視頻，提取信息轉化為結構化格式供大模型處理。最終一共開發了25個特定任務的prompts。

第三步，LLM優化與人工反饋。

在這個階段，團隊實現了一個人工反饋系統，7名經驗豐富的人員人工評估每個問題的有效性、答案準確性、錯誤選項合理性。最終收集了400多個小時的人工反饋，然后設計prompt，自動優化 MCQ?得到 MCQ?。

第四步，盲選。

這一階段的目標是消除可以通過大模型先驗知識的問題，或者消除那些可以在不用視頻中任何信息就可以回答的問題。

團隊用兩個獨立的大模型——GPT-4-turbo和GPT-4，對MCQ?進行盲篩，確保剩余 MCQ?高質量且專門測試長視頻語言理解。

第五步也是最后一步，專家優化。

這一步是用來提升MCQ?質量，將寬泛問題精確化，經此階段得到高質量 MCQ?。

4個專家干的事be like，把 “掛著相機的人把鑰匙放在哪里了？” 精確成“掛著相機的人購物回家后，把自行車鑰匙放在哪里了？”

如上pipeline中，研究圖納隊使用了GPT-4來遵循復雜的多步驟指令，同時還使用了CoT提示策略。

此外，pipeline中涉及大模型的所有階段的問題被設為0.1。

據統計，HourVideo涵蓋77種日常生活場景，包含500個Ego4D視頻，視頻時長共381個小時、平均時長45.7分鐘，其中113個視頻時長超過1小時。

每個視頻有約26個高質量五選一題，共計12976個問題。

除因果、反事實和導航任務外，問題在任務套件中均勻分布。

最好表現仍遠低于人類專家水平

在實驗評估方面，HourVideo采用五選多任務問答（MCQ）任務，以準確率作為評估指標，分別報告每個任務以及整個數據集的準確率。

由于防止信息泄露是評估長視頻中的MCQ時的一個重要挑戰——理想情況下，每個MCQ應獨立評估，但這種方法計算成本巨高，且十分耗時。

因此，實際評估中按任務或子任務對問題進行分批評估，對于預測任務，提供精確的時間戳以便對視頻進行有針對性的剪輯，從而平衡計算成本和評估準確性。

研究團隊比較了不同的多模態模型在零鏡頭設置下理解長視頻的性能。

主要評估了三類模型，所有這些模型都在一個通用函數下運行：

盲LLM：

指是指在評估過程中，不考慮視頻內容，僅依靠自身預先訓練的知識來回答問題的大型語言模型。

實驗中以GPT-4為代表。它的存在可以揭示模型在多大程度上依賴于其預訓練知識，而不是對視頻中實際視覺信息的理解。

蘇格拉底模型：

對于大多數當前的多模態模型，直接處理非常長的視頻存在困難。

因此，采用Socratic模型方法，將視頻（總時長為t分鐘）分割成1分鐘的間隔，每個間隔獨立加字幕，然后將這些字幕聚合形成一個全面的基于語言的視頻表示，并與通用任務無關的提示一起作為輸入進行長視頻問答。

實驗中分別使用GPT-4和LLaVA- NEXT-34-DPO 為視頻字幕生成器，并最終使用GPT-4進行實際問題回答。

原生多模態模型：

像Gemini 1.5 Pro這樣的原生多模態模型，在多模態數據（包括音頻、視頻、圖像和文本）上聯合訓練，能夠處理非常長的上下文長度*（（2M +），適合直接對HourVideo進行端到端評估。

為了與模型性能進行對比，實驗人員從基準數據集中選取了14個視頻，涵蓋>18種場景，包括手工制作/繪畫、烹飪、建筑/裝修、園藝、清潔/洗衣和庭院工作等。

然后邀請了3位人類專家，對上述總時長11.2小時的視頻內容進行進行評估，共涉及213個MCQ。

為確保評估的公正性，參與評估的人類專家未參與過這些視頻的早期注釋工作。

最終，人類專家在評估中的準確率達到了85.0% 。

而盲LLM的準確率為19.6%，Socratic模型準確率略高，原生多模態模型準確率最高，達到了37.3%，仍然遠低于人類專家水平。

此外，獨立評估每個MCQ與按任務級別評估相比，性能下降2.1%，但成本增加3倍以上，證明了任務級評估方法的效率和有效性。

最后，團隊表示未來計劃擴展基準測試，包括更多樣化的視頻來源（如體育和YouTube視頻），納入音頻模態支持，并探索其他感官模態。

同時強調在開發模型時需考慮隱私、倫理等問題。

團隊成員

HourVideo項目來自斯坦福李飛飛和吳佳俊團隊。

論文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大學計算機科學博士二年級學生，從事計算機視覺和機器學習研究，導師是李飛飛和斯坦福視覺與學習實驗室（SVL）聯合主任胡安·卡洛斯·尼貝萊斯。

共同一作Agrim Gupta是斯坦福大學計算機科學專業的博士生，2019年秋季入學，同樣是李飛飛的學生。

此前，他曾在微軟、DeepMind，有Meta的全職經歷，也在Google做過兼職。2018年時，他就跟隨李飛飛一同在CVPR上發表了論文。

目前，Agrim的Google Scholar論文被引用量接近6400次。

李飛飛是大家熟悉的AI教母，AI領域內最具影響力的女性和華人之一。

她33歲成為斯坦福計算機系終身教授，44歲成為美國國家工程院院士，現任斯坦福以人為本人工智能研究院（HAI）院長。

計算機視覺領域標桿成果ImageNet亦是由她一手推動。

此前，李飛飛也曾短暫進入工業界，出任谷歌副總裁即谷歌云AI首席科學家。她一手推動了谷歌AI中國中心正式成立，這是Google在亞洲設立的第一個AI研究中心。并帶領谷歌云推出了一系列有影響力的產品，包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年，李飛飛宣布創辦空間智能公司World Labs，公司成立不到4個月時間，估值突破10億美元。

所謂空間智能，即“視覺化為洞察；看見成為理解；理解導致行動”。

吳佳俊，現任斯坦福大學助理教授，隸屬于斯坦福視覺與學習實驗室（SVL）和斯坦福人工智能實驗室（SAIL）。

他在麻省理工學院完成博士學位，本科畢業于清華大學姚班，曾被譽為“清華十大學神”之一。

同時，他也是李飛飛創業公司World Labs的顧問。

責任編輯：張燕妮來源：量子位

模型數據