精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓模型“看視頻寫網頁”,GPT-5僅得36.35分!上海AI Lab聯合發布首個video2code基準

人工智能 新聞
上海人工智能實驗室聯合浙江大學等機構的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網頁重建能力的評測基準。

多模態大模型在根據靜態截圖生成網頁代碼(Image-to-Code)方面已展現出不俗能力,這讓許多人對AI自動化前端開發充滿期待。

然而,一個網頁的真正價值遠不止于其靜態布局。用戶的點擊、篩選、表單提交,乃至游戲中的每一步操作,都構成了其核心的交互功能。這些動態、有狀態的交互邏輯,恰恰是傳統靜態評測無法觸及的盲區。

為了填補這一關鍵空白,上海人工智能實驗室聯合浙江大學等機構的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網頁重建能力的評測基準。

IWR-Bench的核心轉變在于,它不再提供靜態截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結合網頁所需的全部靜態資源(如圖片、圖標、子視頻等),去理解并復現整個頁面的動態行為。任務的復雜性跨度很大,從簡單的瀏覽功能,到需要逆向工程游戲規則的2048、訂機票等應用。

這項任務的難度遠超預期。在對28個主流模型的全面測試中,即便是表現最好的模型GPT-5,其綜合得分也僅有36.35分。這一結果清晰地指出了當前模型的核心短板,IWR-Bench不僅為領域提供了一個更具挑戰性的新目標,也為未來的研究指出了一個新的方向。

核心亮點

  • 首個視頻輸入的交互網頁重建評測:從“image-to-code”邁向“video-to-code”,對網頁事件驅動邏輯的生成提出剛性要求
  • 真實場景、完整資源:113個網站任務、1001次交互動作;提供全部靜態資源并匿名化命名,逼近真實開發
  • 自動化Agent-as-a-Judge:用編程代理復現動作軌跡,雙重評分同時評估功能正確性(IFS)與視覺保真度(VFS)
  • 28個LVLM系統測評:最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態模型顯著優于“視頻專長”模型

△10個代表性模型在IWR-Bench任務上的評測總覽

覆蓋全面的真實世界網頁任務

現有的網頁代碼生成基準(如Design2Code、WebSight)主要聚焦于靜態截圖轉代碼(image2code),而IWR-Bench則專注于動態視頻轉可交互網頁代碼(video2code):

傳統任務: 給AI一張網頁截圖 → 生成HTML/CSS代碼IWR任務: 給AI一段用戶操作視頻 + 網頁靜態資源 → 生成包含完整交互邏輯的代碼

值得一提的是,每個任務都提供了完整的靜態資源(圖片、圖標、視頻等),并且所有文件名都經過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語義推理。靜態資源的引入,也為直接基于渲染結果而非HTML代碼進行評測提供了關鍵幫助。

下圖為IWR-Bench任務和評測總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態資源的縮略圖與文件路徑,要求模型輸出html代碼。評測時,通過agent在瀏覽器上基于(c)標注的操作軌跡進行操作,以實現基于檢查點的自動化評分。

IWR任務對模型的三大核心挑戰包括:

  • 多模態理解:從視頻幀精準捕捉布局、文本與組件狀態
  • 多模態推理:在時間序列中推斷交互邏輯與因果關系,并將視頻元素與靜態資源可靠匹配與綁定
  • 高級代碼生成:將推斷出的狀態機與事件邏輯實現為可運行的前端代碼

IWR任務的規模和覆蓋范圍如下:

  • 113個來自真實網站的任務,分辨率覆蓋桌面與移動端(19種,移動占10.62%)
  • 共1001個交互動作,平均每任務8.9步;其中620個視覺檢查點、403個邏輯斷言
  • 復雜任務包含2048、掃雷等完整游戲邏輯與GUI重建

評測框架和指標

IWR-Bench采用了一套嚴格的自動化評測協議,通過編程代理(基于browser-use庫)來模擬真實用戶的網頁操作。

評測流程

  • 操作執行:代理按照預定義的動作序列操作生成的網頁
  • 功能驗證:檢查每個操作是否能正確執行,以及邏輯斷言是否滿足
  • 視覺對比:在關鍵檢查點截圖,與參考頁面進行多維度對比

雙重評分體系

交互功能分數(IFS):衡量功能正確性

  • 計算成功完成的操作占總操作數的比例, 操作失敗包括瀏覽器執行失敗、邏輯斷言失敗
  • SOTA模型GPT-5的IFS僅為24.39%

視覺保真度分數(VFS):衡量視覺還原度 - 結合低級特征(OCR文本相似度、DINO結構相似度)

  • 融合高級評估(由Gemini-2.5-Pro進行整體評判)
  • SOTA模型GPT-5的VFS為64.25%

評測結果

△IWR-Bench在28個模型上的評測結果

研究人員從中得到了三個關鍵發現。

首先,功能實現是最大瓶頸

所有模型的VFS都顯著高于IFS,這揭示了一個核心問題:

模型能夠較好地復現靜態視覺效果,但在生成事件驅動邏輯方面嚴重不足。

例如,GPT-5能夠達到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁面”看起來對”,實際操作時有75%以上的功能無法正常工作。

其次,thinking版本帶來部分提升

“thinking”版本模型普遍表現更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,說明基礎模型能力仍是決定性因素。

另外,現在的專有視頻理解模型效果不如通用多模態模型

專門針對視頻理解訓練的模型(如VideoLLaMA3、InternVideo)表現墊底,而通用的多模態大模型表現更優。這表明,該任務與傳統的視頻理解任務具有顯著的差異性。

IWR-Bench的推出,標志著AI從“看懂靜態網頁”到“理解動態交互”的關鍵一步。36分的成績告訴我們:這條路還很長。這不僅是對AI多模態能力的一次全面體檢,更是為多模態能力涌現指明了下一階段的攻堅方向。

IWR-Bench由上海人工智能實驗室聯合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學碩士生,通訊作者為上海人工智能實驗室沈宇帆、石博天。

論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數據地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁:
https://l-o-i.github.io/IWR-Bench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-27 08:35:00

2025-02-12 10:12:00

視頻模型AI

2025-04-01 09:25:00

2025-11-03 08:40:00

2024-04-01 08:00:00

AI模型

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-09-24 13:04:01

2023-06-16 13:38:37

上海昇思AI框架昇思

2025-08-15 12:50:19

2025-10-28 09:03:08

2025-09-23 09:13:37

2025-10-31 09:02:07

2024-01-09 12:53:16

模型訓練

2024-11-13 15:00:00

模型數據

2024-06-17 18:04:38

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-08-08 16:22:19

GPT-5CIOIT 團隊

2025-08-20 09:02:00

2011-09-09 14:30:52

2025-07-03 09:27:57

點贊
收藏

51CTO技術棧公眾號

理论片午午伦夜理片在线播放| 国产成人在线免费观看视频| 久久天堂影院| 亚洲精品国产第一综合99久久| 亚洲综合最新在线| 成人精品在线看| 日本一区二区高清不卡| 制服.丝袜.亚洲.另类.中文| 7777在线视频| 深夜视频在线免费| 精品一区二区免费在线观看| 欧美激情第99页| 亚洲人成人无码网www国产| 欧美极品在线| 欧美视频在线免费| 久久久久久久久网| 极品白浆推特女神在线观看| 懂色av一区二区三区免费观看| 日本人成精品视频在线| www.超碰在线观看| 精品免费av| 亚洲第一二三四五区| 亚洲36d大奶网| 黄视频网站在线观看| 日韩美女精品在线| 日韩精品资源| 国内爆初菊对白视频| 蜜臀精品一区二区三区在线观看| 97在线视频免费| 日本妇女毛茸茸| 欧美xxxxx视频| 亚洲欧美国产日韩中文字幕| 在线精品视频播放| 九九99久久精品在免费线bt| 91精品福利视频| 国产男女免费视频| 日韩经典av| 亚洲免费观看视频| japanese在线视频| 色大18成网站www在线观看| 成人av先锋影音| 99超碰麻豆| 国产欧美一区二区三区视频在线观看| 日本免费新一区视频| 日本精品久久久久影院| 日韩美女视频网站| 国产精品chinese| 欧美福利小视频| 成人在线观看免费完整| 国产二区精品| 久久久精品免费| 日韩精品一区二区亚洲av性色| 波多野结衣在线观看一区二区三区| 亚洲另类欧美自拍| 黄色a一级视频| 欧美日韩一区二区三区在线电影| 亚洲国产精品久久久久秋霞蜜臀 | 久久精品国产清自在天天线| 蜜桃av.com| 综合一区二区三区| 色与欲影视天天看综合网| 欧美成人综合色| 极品日韩av| 久久人人爽人人爽人人片av高请| 日本熟妇毛耸耸xxxxxx| 99riav国产精品| 亲爱的老师9免费观看全集电视剧| av资源免费观看| 视频一区二区国产| 国产精品人成电影| 国产免费av电影| 国产成人99久久亚洲综合精品| 国产成人免费观看| 亚洲人成色777777老人头| 久久久久久久综合日本| 亚洲欧美99| av毛片在线| 精品久久久久久久久久国产| 粗暴91大变态调教| 国产精区一区二区| 亚洲第一男人天堂| 欧美另类z0zx974| 天天天综合网| 欧美精品xxx| 中文字幕69页| 国产一区二区三区精品视频| 国外成人在线视频网站| 国产中文字幕在线| 亚洲精品视频免费观看| 91国视频在线| 色综合久久久| 亚洲精品国产拍免费91在线| 俄罗斯毛片基地| 黄色日韩在线| 国产脚交av在线一区二区| 国产欧美一级片| xnxx国产精品| 五月天激情图片| 日韩网站中文字幕| 欧美成人三级在线| 免费看黄色av| 伊人久久大香线蕉综合热线| 国产精品美女999| 欧美 日韩 国产 成人 在线| 欧美激情在线观看视频免费| cao在线观看| 婷婷精品久久久久久久久久不卡| 亚洲电影天堂av| 日本中文在线视频| 青青草精品视频| 国产在线精品一区二区三区》| 免费看a在线观看| 色呦呦一区二区三区| 亚洲免费观看在线| 99热国内精品永久免费观看| 国产mv免费观看入口亚洲| 黄色一级大片在线免费看国产一 | 久久人人爽爽爽人久久久| 六月婷婷激情网| jizzjizz少妇亚洲水多| 日韩高清av在线| 青青青在线视频| 黑人巨大精品欧美一区| 日韩在线电影一区| 无遮挡爽大片在线观看视频 | 视频一区二区三区国产| 亚洲精品久久嫩草网站秘色| 国产三级三级看三级| 欧美美女在线| 青青草一区二区| 人成网站在线观看| 亚洲精品你懂的| 在线观看免费成人av| 老司机在线精品视频| 欧美黄色性视频| 精品人妻一区二区三区浪潮在线 | 成人高清dvd| 外国成人毛片| 日韩在线免费高清视频| 中文天堂在线资源| 国产欧美一区二区三区网站| 免费日韩视频在线观看| 亚洲系列另类av| 欧美中在线观看| 日本精品专区| 日韩欧美黄色动漫| 扒开jk护士狂揉免费| 国产日韩综合| 麻豆蜜桃91| 92国产精品| 亚洲色图国产精品| 337p粉嫩色噜噜噜大肥臀| 久久精品水蜜桃av综合天堂| 99久久国产宗和精品1上映| 国产成人调教视频在线观看 | 91黑人精品一区二区三区| 久久久www成人免费无遮挡大片| 国产xxxxx在线观看| 欧美猛男同性videos| 国产精品第3页| 国产露出视频在线观看| 欧美日韩精品一区二区| 日本黄色片免费观看| 成人免费视频国产在线观看| 黄色一级片在线看| 中国av一区| 国产精品视频播放| 蜜桃视频网站在线观看| 日韩视频在线一区二区| 日本免费观看视| 国产视频在线观看一区二区三区 | 久久久久高清精品| 视色视频在线观看| 亚洲中无吗在线| 精品国产免费久久久久久尖叫 | 欧美图片一区二区| 蜜桃av一区二区三区| 女女百合国产免费网站| 美腿丝袜亚洲图片| 国产精品视频资源| 黄页网站大全在线免费观看| 日韩精品视频在线| 91久久国语露脸精品国产高跟| 一区二区在线看| 天天躁日日躁aaaxxⅹ | 婷婷五月精品中文字幕| 久久伊人亚洲| 国内精品国产三级国产99| 都市激情亚洲| 国产欧美日韩视频| 91九色美女在线视频| 一区二区亚洲欧洲国产日韩| 午夜美女福利视频| 在线欧美小视频| 国内偷拍精品视频| 国产欧美日韩激情| 国内自拍偷拍视频| 麻豆成人91精品二区三区| 久操网在线观看| 久久人人99| 久久久久久国产精品免费免费| 国产精品免费精品自在线观看| 538国产精品一区二区在线| 国产在线看片| 亚洲午夜精品视频| 国模无码一区二区三区| 欧美久久久久久久久| 中文字幕在线欧美| 亚洲一区免费观看| 一级性生活免费视频| 99国产精品一区| 激情成人在线观看| 日本不卡一区二区三区| 337p粉嫩大胆噜噜噜鲁| 欧美天天在线| 天天做天天爱天天高潮| 精品成人影院| 欧美下载看逼逼| 日韩欧美天堂| 国产v亚洲v天堂无码| 成人激情久久| 国产精品视频成人| 国产一区二区三区朝在线观看| 午夜剧场成人观在线视频免费观看| 国产在线一区二区视频| 色吧影院999| av在线中文| 国产午夜精品视频| 久久精品蜜桃| 精品亚洲一区二区三区在线播放 | 国产一区二区四区| 你懂的国产精品| 三年中文高清在线观看第6集| 成人短片线上看| 亚洲.欧美.日本.国产综合在线| 亚洲妇女av| 区一区二区三区中文字幕| 亚洲+变态+欧美+另类+精品| 国产日韩欧美一区二区| 国产极品模特精品一二| 国产精品免费一区二区三区观看| 成人污污视频| 亚洲free嫩bbb| 激情综合五月| 3d动漫啪啪精品一区二区免费 | 69精品久久久| 亚洲第一福利一区| 日本在线观看中文字幕| 红桃av永久久久| 国产乱国产乱老熟| 日韩欧美在线一区| 欧美一区二区三区久久久| 欧日韩精品视频| 在线观看中文字幕av| 337p亚洲精品色噜噜噜| www.黄色片| 亚洲二区在线播放视频| 色av男人的天堂免费在线 | 91cn在线观看| 久久久久久成人精品| 欧洲中文在线| 欧美一区二区三区免费观看| 范冰冰一级做a爰片久久毛片| 国产精品91久久| 伦一区二区三区中文字幕v亚洲| 91精品国产综合久久久久久久久| 亚洲视频国产精品| 久久久精彩视频| 久久精品国产大片免费观看| 国产日韩第一页| av成人国产| 欧美日韩亚洲自拍| 国产成人精品综合在线观看 | 国产精品九色蝌蚪自拍| 欧美激情国产精品免费| 高跟丝袜欧美一区| 亚洲综合精品在线| 精品日韩在线一区| 手机福利在线| 日韩在线观看免费| 538在线观看| 国产精品劲爆视频| 亚洲一区二区三区中文字幕在线观看| 麻豆91蜜桃| 欧美激情第二页| 成人亚洲视频在线观看| 国产精品一区二区久久精品爱涩| 三级黄色片网站| 国产精品国产自产拍高清av | 精品国内片67194| 伦理片一区二区三区| 久久这里只有精品视频首页| 日本不卡网站| 亚洲a区在线视频| 国产成人3p视频免费观看| 亚洲精品国产suv一区88| 老牛影视一区二区三区| 日韩高清一二三区| 国产精品国产三级国产| 国产毛片aaa| 日韩一二三区视频| 成人在线观看免费| 88xx成人精品| 日韩欧美激情电影| 亚洲欧美99| 免播放器亚洲| 欧美激情一区二区三区p站| 国产精品美女久久久久久久 | 热re99久久精品国产99热| 国产在线成人| 国产美女视频免费看| 久久久影视传媒| 日韩欧美亚洲一区二区三区| 欧美一区二区三区在线电影| 岛国在线大片| 欧美一级bbbbb性bbbb喷潮片| 一区二区三区亚洲变态调教大结局| 亚洲精品一区二区三区四区五区| 国产一区二区三区的电影| 精品国产aⅴ一区二区三区东京热| 国产精品国产三级国产aⅴ原创| 国产精品久久久久久人| 亚洲丁香婷深爱综合| h片精品在线观看| 97神马电影| 欧美福利专区| 樱花草www在线| 中文字幕一区二区三区四区| 在线观看国产区| 国产亚洲欧洲高清| 二区三区不卡| 欧美一区二区三区成人久久片| 亚洲激情精品| 久久精品女同亚洲女同13| 亚洲午夜精品在线| 亚洲成人黄色片| 欧美精品18videos性欧| 伊色综合久久之综合久久| 国产精品视频网站在线观看| 国产盗摄精品一区二区三区在线| 精品人妻伦九区久久aaa片| 欧美精品色综合| 超碰在线caoporn| 亚洲字幕在线观看| 欧美午夜一区| 大桥未久恸哭の女教师| 亚洲高清免费一级二级三级| 姝姝窝人体www聚色窝| 2024亚洲男人天堂| 最新国产一区| 亚洲一区在线不卡| 综合久久久久综合| 精品人妻少妇AV无码专区| 久久久久久成人| 蜜桃精品噜噜噜成人av| 黄色免费网址大全| 亚洲欧美在线视频| 亚洲国产精品久久久久久久| 久久理论片午夜琪琪电影网| 日日狠狠久久偷偷综合色| 中文字幕国产传媒| 国产精品久久久久三级| 国产视频在线观看免费| 欧美激情视频在线观看| 日韩美女国产精品| 精品少妇无遮挡毛片| 亚洲三级在线免费观看| 黄色av小说在线观看| 奇米影视亚洲狠狠色| 国产精品久久久久久麻豆一区软件 | 亚洲免费影视第一页| 成人午夜毛片| 日本免费a视频| 久久免费视频一区| 国产精品高潮呻吟av| 久久久久国产视频| 精品国产精品| 色婷婷狠狠18禁久久| 欧美视频第一页| 嘿嘿视频在线观看| 欧美a级理论片| 久久久免费看片| 精品国产在天天线2019| 丝袜美腿一区| 懂色av粉嫩av蜜臀av| 91在线视频18| 国产欧美久久久精品免费| 2019精品视频| 图片区亚洲欧美小说区| 变态另类丨国产精品| 91麻豆精品国产91久久久资源速度| а√天堂中文在线资源8| 亚洲视频精品一区| 91在线看国产| 99热这里只有精品在线观看| 日韩av片免费在线观看| 欧美日韩影院| 日本成人免费在线观看| 亚洲精品国产精品自产a区红杏吧| av日韩久久|