讓模型“看視頻寫網頁”,GPT-5僅得36.35分!上海AI Lab聯合發布首個video2code基準
多模態大模型在根據靜態截圖生成網頁代碼(Image-to-Code)方面已展現出不俗能力,這讓許多人對AI自動化前端開發充滿期待。
然而,一個網頁的真正價值遠不止于其靜態布局。用戶的點擊、篩選、表單提交,乃至游戲中的每一步操作,都構成了其核心的交互功能。這些動態、有狀態的交互邏輯,恰恰是傳統靜態評測無法觸及的盲區。
為了填補這一關鍵空白,上海人工智能實驗室聯合浙江大學等機構的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網頁重建能力的評測基準。

IWR-Bench的核心轉變在于,它不再提供靜態截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結合網頁所需的全部靜態資源(如圖片、圖標、子視頻等),去理解并復現整個頁面的動態行為。任務的復雜性跨度很大,從簡單的瀏覽功能,到需要逆向工程游戲規則的2048、訂機票等應用。
這項任務的難度遠超預期。在對28個主流模型的全面測試中,即便是表現最好的模型GPT-5,其綜合得分也僅有36.35分。這一結果清晰地指出了當前模型的核心短板,IWR-Bench不僅為領域提供了一個更具挑戰性的新目標,也為未來的研究指出了一個新的方向。
核心亮點:
- 首個視頻輸入的交互網頁重建評測:從“image-to-code”邁向“video-to-code”,對網頁事件驅動邏輯的生成提出剛性要求
- 真實場景、完整資源:113個網站任務、1001次交互動作;提供全部靜態資源并匿名化命名,逼近真實開發
- 自動化Agent-as-a-Judge:用編程代理復現動作軌跡,雙重評分同時評估功能正確性(IFS)與視覺保真度(VFS)
- 28個LVLM系統測評:最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態模型顯著優于“視頻專長”模型
△10個代表性模型在IWR-Bench任務上的評測總覽
覆蓋全面的真實世界網頁任務
現有的網頁代碼生成基準(如Design2Code、WebSight)主要聚焦于靜態截圖轉代碼(image2code),而IWR-Bench則專注于動態視頻轉可交互網頁代碼(video2code):
傳統任務: 給AI一張網頁截圖 → 生成HTML/CSS代碼IWR任務: 給AI一段用戶操作視頻 + 網頁靜態資源 → 生成包含完整交互邏輯的代碼
值得一提的是,每個任務都提供了完整的靜態資源(圖片、圖標、視頻等),并且所有文件名都經過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語義推理。靜態資源的引入,也為直接基于渲染結果而非HTML代碼進行評測提供了關鍵幫助。
下圖為IWR-Bench任務和評測總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態資源的縮略圖與文件路徑,要求模型輸出html代碼。評測時,通過agent在瀏覽器上基于(c)標注的操作軌跡進行操作,以實現基于檢查點的自動化評分。

IWR任務對模型的三大核心挑戰包括:
- 多模態理解:從視頻幀精準捕捉布局、文本與組件狀態
- 多模態推理:在時間序列中推斷交互邏輯與因果關系,并將視頻元素與靜態資源可靠匹配與綁定
- 高級代碼生成:將推斷出的狀態機與事件邏輯實現為可運行的前端代碼

IWR任務的規模和覆蓋范圍如下:
- 113個來自真實網站的任務,分辨率覆蓋桌面與移動端(19種,移動占10.62%)
- 共1001個交互動作,平均每任務8.9步;其中620個視覺檢查點、403個邏輯斷言
- 復雜任務包含2048、掃雷等完整游戲邏輯與GUI重建
評測框架和指標
IWR-Bench采用了一套嚴格的自動化評測協議,通過編程代理(基于browser-use庫)來模擬真實用戶的網頁操作。
評測流程
- 操作執行:代理按照預定義的動作序列操作生成的網頁
- 功能驗證:檢查每個操作是否能正確執行,以及邏輯斷言是否滿足
- 視覺對比:在關鍵檢查點截圖,與參考頁面進行多維度對比
雙重評分體系
交互功能分數(IFS):衡量功能正確性
- 計算成功完成的操作占總操作數的比例, 操作失敗包括瀏覽器執行失敗、邏輯斷言失敗
- SOTA模型GPT-5的IFS僅為24.39%
視覺保真度分數(VFS):衡量視覺還原度 - 結合低級特征(OCR文本相似度、DINO結構相似度)
- 融合高級評估(由Gemini-2.5-Pro進行整體評判)
- SOTA模型GPT-5的VFS為64.25%
評測結果
△IWR-Bench在28個模型上的評測結果
研究人員從中得到了三個關鍵發現。
首先,功能實現是最大瓶頸。
所有模型的VFS都顯著高于IFS,這揭示了一個核心問題:
模型能夠較好地復現靜態視覺效果,但在生成事件驅動邏輯方面嚴重不足。
例如,GPT-5能夠達到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁面”看起來對”,實際操作時有75%以上的功能無法正常工作。
其次,thinking版本帶來部分提升。
“thinking”版本模型普遍表現更好:
- Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
- Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
- Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31
但提升幅度有限,說明基礎模型能力仍是決定性因素。
另外,現在的專有視頻理解模型效果不如通用多模態模型。
專門針對視頻理解訓練的模型(如VideoLLaMA3、InternVideo)表現墊底,而通用的多模態大模型表現更優。這表明,該任務與傳統的視頻理解任務具有顯著的差異性。
IWR-Bench的推出,標志著AI從“看懂靜態網頁”到“理解動態交互”的關鍵一步。36分的成績告訴我們:這條路還很長。這不僅是對AI多模態能力的一次全面體檢,更是為多模態能力涌現指明了下一階段的攻堅方向。
IWR-Bench由上海人工智能實驗室聯合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學碩士生,通訊作者為上海人工智能實驗室沈宇帆、石博天。
論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數據地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁:
https://l-o-i.github.io/IWR-Bench/






































