精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

游戲bug幫大模型學物理!準確率超GPT4o近4個百分點

人工智能
本文的PhysVLM模型在所有7B模型中表現優越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO,團隊發現,使用所提出的PhysDPO數據進行 DPO訓練在短視頻和長視頻上的表現都有所提升,而在中等長度的視頻上的表現略

融合物理知識的大型視頻語言模型PhysVLM,開源了!

它不僅在 PhysGame 基準上展現出最先進的性能,還在通用視頻理解基準上(Video-MME, VCG)表現出領先的性能。

在這項研究之前,想讓AI像人類兒童一樣,通過觀察世界理解基本的物理常識,是一個主要挑戰。

圖片圖片

對于現實世界的視頻來說,全面覆蓋和解釋所有正常的物理現象既困難又不必要。

相比之下,游戲視頻(gameplay videos)通常包含違反物理常識的“故障現象”(glitches),這有助于簡化物理常識理解的定義和評估,即專注于解釋物理常識的違反現象,而不是試圖列舉所有存在的正常物理現象。

為此,PhysVLM在專門整理的一套數據集上訓練,包括用于評估的PhysGame benchmark、用于監督微調的PhysInstruct數據集和用于偏好對齊的PhysDPO數據集。

PhysGame benchmark 設計

如圖所示, PhysGame包含880個含有故障現象的游戲視頻,每個視頻都配有一個高質量的多項選擇題,專門針對故障現象的性質進行標注。

圖片圖片

△PhysGame類別分布

PhysGame涵蓋了四個關鍵的物理領域(即力學、運動學、光學和材料屬性),并細分為12個具體類別(如重力和速度)。

  • 力學(Mechanics):該類別涉及力與力矩及其對運動的影響,提供了解釋和分析視頻中物體運動的基礎原理。典型案例包括重力、彈性和摩擦力。
  • 運動學(Kinematics):該領域研究不考慮力的情況下的運動,涉及精細分類,如隨時間變化的速度和加速度。
  • 光學(Optics):該領域關注光的行為與特性及其與物質的相互作用,包括反射、折射以及吸收與透射。
  • 材料屬性(Material properties):該領域指的是物質固有的特性,包括顏色、剛性、物體形狀以及人體姿態。

PhysGame benchmark構建

視頻收集和過濾:

PhysGame中的視頻主要從Reddit頁面抓取,該頁面包含帶有異常事件和故障現象的游戲視頻。為了平衡不同的類別,團隊還通過關鍵詞搜索從 YouTube增強視頻數據。團隊根據以下兩項標準進行人工篩查:

  • 重復檢查:Reddit論壇可能會多次引用同一視頻,導致重復下載。團隊手動檢查,確保PhysGame benchmark中的視頻不存在重復;
  • 內容檢查:下載的視頻可能包含非游戲元素,團隊對這些內容進行了嚴格篩選,確保它們不被納入PhysGame benchmark中。

選項生成:

本文以多項選擇題的形式創建問答對。具體來說,正確選項描述了視頻中違反物理常識原則的特定故障現象。為了增強干擾選項的可信度,本文要求干擾選項中的故障現象應與視頻中觀察到的個體或動作高度相關,這使視頻LLM理解故障內容,而不僅僅通過識別包含的物體或動作來選擇答案。

質量控制: 

為了保證數據集的質量,本文進行了一項包括人工檢查和自動LLM輔助檢查在內的雙重質量控制過程:

  • 人工檢查:所有初步標注的問答對都經過不同人工標注人員的嚴格交叉檢查。對于正確選項,檢查人員必須評估它們是否全面準確地描述了所有存在的物理常識違反實例。對于干擾選項,檢查人員需評估它們是否足夠具有迷惑性;
  • LLM 輔助檢查: 團隊去除那些僅憑問題和選項,不需要查看視頻就能由GPT-4o正確回答的問答對。

圖片圖片

△PhysGame示例

PhysInstruct&PhysDPO數據集構建

PhysInstruct:

為了提升視頻LLM的物理常識理解能力,團隊開發了PhysInstruct數據集用于監督微調。視頻收集過程與PhysGame中的流程相同。為了防止數據泄漏,團隊嚴格排除任何已包含在PhysGame中的視頻。團隊遵循Self-instruct范式通過提示GPT-4o來構建PhysInstruct。

PhysDPO:

團隊構建了偏好對齊數據集PhysDPO,以提供更可信和可靠的回答。如圖3所示,團隊將PhysInstruct 數據集中生成的答案視為preferred回答,而dis-preferred回答則通過元信息篡改(meta-information hacking)、時間篡改(temporal hacking)和空間篡改(spatial hacking)生成。團隊用誤導性的元信息以及減少幀數和降低幀分辨率的視頻幀來提示 GPT-4o。

以下是PhysDPO數據集構建流程圖:

圖片圖片

模型評估與分析

PhysGame benchmark 實驗結果:

  • 在所有專有模型中,GPT-4o和Gemini-1.5-pro表現最佳,分別達到了56.1%和55.2%的平均準確率。在所有細分領域中,GPT-4o在摩擦和加速度方面表現優越。相比之下,Gemini-1.5-pro在理解與重力、彈性、反射、吸收與透射、顏色和剛性相關的物理常識方面表現更強。
  • 現有的開源模型遠遠落后于專有模型。即便是表現最好的開源模型 LLaVA-OneVision,其平均準確率僅為47.7%。相比之下,本文提出的PhysVLM在所有專有和開源模型中都達到了最先進的性能。與開源方法相比,本文的PhysVLM在12個評估領域中的6個領域達到了最高性能。值得注意的是,PhysVLM-DPO在平均準確率這一指標上比最佳表現的專有模型GPT-4o超出了3.4%。

PhysGame benchmark實驗結果PhysGame benchmark實驗結果

Video-MME benchmark實驗結果:

本文的PhysVLM模型在所有7B模型中表現優越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO,團隊發現,使用所提出的PhysDPO數據進行 DPO訓練在短視頻和長視頻上的表現都有所提升,而在中等長度的視頻上的表現略有下降。

圖片圖片

△Video-MME benchmark實驗結果

VCG benchmark實驗結果:

在僅使用SFT的模型中,本文的PhysVLM-SFT在平均得分方面表現最佳。在四個子類別的評估中,PhysVLM-SFT在信息正確性和一致性類別上表現尤為出色。與使用DPO或PPO訓練的PPLLaVA和LLaVA-Next-Video相比,本文的PhysVLM-DPO也展現出卓越的性能,進一步驗證了所提出的PhysVLM模型在通用視頻理解中的出色能力。

VCG benchmark實驗結果VCG benchmark實驗結果


PhysVLM相關論文、代碼、數據均已開源:

pre-prints: https://arxiv.org/abs/2412.01800
代碼鏈接: https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-09-24 13:00:00

大語言模型AI

2025-03-03 07:39:23

2016-08-12 16:20:30

2015-12-04 14:49:21

ios9

2025-05-26 08:33:00

2019-11-17 22:45:12

谷歌Android開發者

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2024-08-02 13:14:51

2025-05-06 15:32:23

模型AI測試

2009-01-08 09:26:53

AMD拆分AMD股份AMD股票

2025-03-11 13:42:19

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2015-09-13 09:29:52

百分點

2017-07-12 15:30:59

人工智能知識圖譜深度學習

2024-06-20 10:43:15

2025-11-17 10:51:05

2024-06-18 12:54:39

2024-01-03 13:37:00

模型數據
點贊
收藏

51CTO技術棧公眾號

日本福利在线观看| 久久国产在线视频| 日本国产一区| 一区二区三区成人在线视频| 国严精品久久久久久亚洲影视 | 成人中心免费视频| 国产精品成人国产乱| 欧美日韩伦理在线免费| 日韩视频一区在线观看| 欧美视频第一区| 污视频网站在线免费| 久久久精品综合| caoporn国产精品免费公开| 天天干天天操天天爱| 你懂的国产精品| 亚洲性生活视频| 国产乱淫av麻豆国产免费| 日韩三区免费| 一区二区三区高清在线| 亚洲日本欧美在线| 天天影院图片亚洲| 国产一区二区三区四区五区入口| 欧日韩在线观看| 九九热国产在线| 久久影院100000精品| 日韩成人黄色av| 欧美一级视频在线| 欧美精品高清| 精品久久久久国产| 欧美日韩亚洲国产成人| 青青草在线视频免费观看| 国产精品夜夜爽| 国产精品久久久久久久久借妻| 黄色小视频在线免费看| 欧美aaaa视频| 最好看的2019的中文字幕视频| 免费在线观看成年人视频| 91蜜桃臀久久一区二区| 在线综合视频播放| 玖玖爱视频在线| 2019年精品视频自拍| 色综合久久综合网| 男女视频网站在线观看| 国产精品186在线观看在线播放| 中文字幕综合网| 亚洲人成77777| 大胆av不用播放器在线播放| 久久久久久**毛片大全| 欧美第一黄网| 日韩一区av| av一二三不卡影片| 精品国产第一页| 午夜在线视频免费| 91小视频在线免费看| 国产精品国产三级国产专区53| 国产jzjzjz丝袜老师水多| 韩国三级在线一区| 亚洲最大av在线| 超碰在线观看99| 国产91在线|亚洲| 高清日韩一区| 污污视频在线免费看| av影院午夜一区| 蜜桃精品久久久久久久免费影院 | 性一交一乱一伧国产女士spa| av在线免费网站| 一区二区三区精密机械公司| av网站手机在线观看| 免费v片在线观看| gogo久久| 亚洲黄色在线播放| 免播放器亚洲一区| 91在线精品播放| 亚洲爆乳无码一区二区三区| av在线不卡网| 日韩区国产区| 黄色网在线播放| 亚洲五码中文字幕| 国产精品97在线| 久久久加勒比| 日韩欧美中文一区二区| 野战少妇38p| 国产成人调教视频在线观看| 中文字幕亚洲综合久久| chinese全程对白| 国精品一区二区三区| 欧美孕妇性xx| 国产情侣在线播放| 波多野结衣视频一区| 日韩经典在线视频| 在线观看电影av| 一本色道久久综合亚洲精品按摩| 日本人69视频| 美女视频亚洲色图| 自拍偷拍亚洲一区| 日本亚洲欧美在线| 捆绑调教一区二区三区| 高清日韩一区| 日韩专区在线| 欧美性xxxxx极品| 涩涩网站在线看| 亚洲区小说区图片区qvod按摩| 日韩亚洲综合在线| 国产精品午夜影院| 国产一区二区毛片| 日本一区二区三区精品视频| 伊人手机在线| 欧美亚洲日本一区| www国产视频| 亚洲精品午夜av福利久久蜜桃| 欧美激情一区二区久久久| 久久久久精彩视频| 粉嫩aⅴ一区二区三区四区| 亚洲国产日韩欧美| 欧美男人天堂| 精品国产免费一区二区三区四区| 337人体粉嫩噜噜噜| 亚洲一区二区伦理| 99国产视频| 麻豆网站在线看| 色88888久久久久久影院按摩| 少妇熟女视频一区二区三区| 婷婷综合视频| 国产精品视频一| 你懂的视频在线免费| 亚洲电影第三页| 一级黄色免费毛片| 国产精品99在线观看| 国产高清视频一区三区| 日本高清中文字幕二区在线| 五月天激情综合| 国产高潮失禁喷水爽到抽搐| 在线精品国产| 91免费国产视频| 3d成人动漫在线| 色8久久人人97超碰香蕉987| 亚洲第一成人网站| 一区二区三区高清视频在线观看| 高清国语自产拍免费一区二区三区| 二区在线播放| 欧美一卡2卡三卡4卡5免费| 欧美性生交大片| 久久国内精品视频| 亚洲伊人婷婷| 亚洲欧美在线人成swag| 日韩亚洲综合在线| 国产精品一区二区三区在线免费观看| 国产精品色在线观看| 最新中文字幕免费视频| 波多野结衣在线观看一区二区| 日本高清不卡在线| 国产一级在线| 欧美在线观看视频一区二区| 天天舔天天操天天干| 青青草国产精品亚洲专区无| 亚洲午夜精品久久久中文影院av| 91国内外精品自在线播放| 中文字幕久精品免费视频| japanese国产在线观看| 国产精品丝袜久久久久久app| 精品999在线| 亚洲成av人片乱码色午夜| 91欧美视频网站| 里番在线播放| 亚洲男人的天堂网站| www.久久视频| 国产精品久久久久aaaa| 日批视频在线看| 激情亚洲成人| 欧美日韩一区二区三区免费| 777午夜精品电影免费看| 久久久av电影| 好吊色一区二区| 色综合久久中文字幕| 91视频免费在观看| 国产精品12区| 精品中文字幕av| 日韩欧美精品一区| 不卡一区二区三区视频| 成人午夜视屏| y97精品国产97久久久久久| www.蜜臀av| 色综合视频在线观看| 调教驯服丰满美艳麻麻在线视频| 国产在线观看一区二区| 阿v天堂2017| 久久高清免费| 国产欧美综合精品一区二区| **欧美日韩在线观看| 久色乳综合思思在线视频| 亚洲AV成人无码一二三区在线| 欧美午夜片在线看| 久久精品视频8| 国产精品色哟哟| 大桥未久恸哭の女教师| 蜜臀av一区二区在线观看| 妺妺窝人体色www看人体| 国产精品片aa在线观看| 99精品国产高清一区二区| 天天综合网站| 久久久久久久97| 一级毛片视频在线| 日韩国产精品视频| 国产伦精品一区二区三区四区| 婷婷久久综合九色综合伊人色| 国产在线免费看| 2020国产精品| 风韵丰满熟妇啪啪区老熟熟女| 美女视频一区二区| 91视频最新入口| 欧美三级在线| 国产欧美综合一区| 精品国产一级毛片| 久草精品电影| 91成人福利| 92福利视频午夜1000合集在线观看| 综合在线影院| 欧美中文字幕在线观看| av蜜臀在线| 久久97久久97精品免视看| 亚洲精品承认| 国产一区二区激情| 欧美视频一二区| 日韩欧美123| av中文字幕免费| 欧美日本在线观看| 中文永久免费观看| 色欧美片视频在线观看 | 日韩一区自拍| 欧美影视一区二区| 色婷婷久久久| 精品在线观看一区二区| 国产精品美女在线观看直播| 91久久国产自产拍夜夜嗨| japansex久久高清精品| 国产美女精彩久久| 成人国产一区| 国产精品一区二区三区久久久| 日本在线精品| 国产精品亚洲一区二区三区| 51一区二区三区| 国产精品亚洲激情| 另类一区二区三区| 国产日韩亚洲欧美| 91精品在线免费视频| 91精品国产综合久久香蕉最新版| 日本中文字幕一区二区| 国产噜噜噜噜久久久久久久久| 日本综合视频| 国产一区在线播放| 电影中文字幕一区二区| 亚洲一区二区三区香蕉| 日韩欧美中文字幕在线视频| 97中文在线观看| 欧美国产中文高清| 动漫精品视频| 少妇久久久久| 日本一区视频在线观看| 欧美freesextv| 韩国无码av片在线观看网站| 激情综合视频| 国产精品沙发午睡系列| 久久九九电影| 欧美视频国产视频| 国产成人99久久亚洲综合精品| 91九色蝌蚪porny| 91色视频在线| 国产农村妇女精品一区| 亚洲人成网站在线| 中文字幕第28页| 一本大道久久a久久精品综合| 久久精品国产亚洲av麻豆蜜芽| 欧美另类变人与禽xxxxx| 国产黄频在线观看| 国产丝袜精品第一页| 日韩专区在线| 欧美激情一级精品国产| 国产v综合v| 91在线高清视频| 青青草原在线亚洲| 亚洲午夜精品福利| 在线免费观看欧美| 亚洲视频在线观看一区二区三区| 国产揄拍国内精品对白| 国产乱了高清露脸对白| 中文av一区二区| 日本三级欧美三级| 欧美性生活影院| 尤物国产在线观看| 麻豆精品在线看| 特级特黄刘亦菲aaa级| 久久精品人人爽人人爽| 日本黄色免费片| 天天色综合天天| 国产裸体无遮挡| 日韩成人在线网站| 国产在线1区| 茄子视频成人在线| 视频一区视频二区欧美| 日韩少妇中文字幕| 99精品国产在热久久| 亚洲高清在线不卡| 国产日韩一级二级三级| 国产在线欧美在线| 在线不卡a资源高清| 色鬼7777久久| 欧美极品美女电影一区| 日韩免费大片| 久久久国产精品一区二区三区| 婷婷久久国产对白刺激五月99| 99热成人精品热久久66| 成人动漫av在线| 国产精品久久久久久久精| 欧美日韩裸体免费视频| 精品毛片一区二区三区| 色综久久综合桃花网| 欧美裸体视频| 国产伦精品一区二区三区| 婷婷综合社区| 国产九九热视频| 国产亚洲一区二区三区四区| 国产精品黄色网| 精品久久五月天| 91香蕉在线观看| 国产这里只有精品| 欧美一二区在线观看| 日本三级免费网站| 99re成人精品视频| 五月天综合在线| 精品粉嫩超白一线天av| 性欧美video高清bbw| 91精品视频播放| 91综合在线| 一级做a免费视频| 国产精品狼人久久影院观看方式| а中文在线天堂| 亚洲色图国产精品| 成人视屏在线观看| 日本在线观看一区| 日本va欧美va瓶| 美国一级黄色录像| 欧美人牲a欧美精品| 秋霞午夜在线观看| 91精品视频在线播放| 亚洲激情五月| 亚洲日本久久久| 亚洲韩国精品一区| 免费观看毛片网站| 97av在线视频| 免费久久精品| 国产超碰在线播放| 国产精品久久久久四虎| 国产理论视频在线观看| 久久国产精彩视频| 日韩免费精品| 国产成人精品视频免费看| 2023国产精品自拍| 成人毛片一区二区三区| 久久激情视频久久| 久久三级中文| 国产精品又粗又长| 久久久亚洲高清| 中文字幕乱码中文字幕| 久久九九精品99国产精品| 欧美另类中文字幕| 日韩伦理在线免费观看| 久久精品视频免费| 91久久国语露脸精品国产高跟| 久久精品中文字幕免费mv| 视频成人永久免费视频| 久久久亚洲精品无码| 国产欧美日韩麻豆91| 国产精品无码白浆高潮| 久久男人的天堂| 国内成人自拍| gogo亚洲国模私拍人体| 天天av天天翘天天综合网色鬼国产| 免费在线黄色影片| 91精品在线播放| 日韩亚洲精品在线| 日韩免费成人av| 欧美一区二区三区喷汁尤物| а√在线中文在线新版| 亚洲二区三区四区| 国产成人精品综合在线观看| 精品国产午夜福利| 萌白酱国产一区二区| 婷婷成人综合| 欧美在线a视频| 色天天综合久久久久综合片| 黄色片网站在线| 欧美一二三四五区| 国产成人日日夜夜| 国产成人a v| 国内精品久久久久| 99久久99久久精品国产片桃花| 国产十八熟妇av成人一区| 7777精品伊人久久久大香线蕉经典版下载| 丁香影院在线| 欧美亚洲视频一区|