精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o-Image僅完成28.9%任務!上海AI實驗室等發布圖像編輯新基準,360道人類專家嚴選難題

人工智能 新聞
360個全部由人類專家仔細思考并校對的高質量測試案例,暴露多模態模型在結合推理能力進行圖像編輯時的短板。

GPT-4o-Image也只能完成28.9%的任務,圖像編輯評測新基準來了!

360個全部由人類專家仔細思考并校對的高質量測試案例,暴露多模態模型在結合推理能力進行圖像編輯時的短板。

圖片

最近,上海人工智能實驗室聯手上海交大、同濟大學、武漢大學、普林斯頓大學的研究人員,針對圖像編輯AI提出了三個問題:

  • 現有的圖像編輯評測基準是否已經無法跟上時代的步伐?
  • 僅僅停留在“更換顏色”等改變物體表層屬性的測試,是否已顯得過于簡單,無法真正衡量AI的“深度理解”能力?
  • 當指令變得更加復雜,涉及圖片背后的邏輯、上下文關聯甚至隱含意圖時,現有模型能否正確“領會”并精準執行,同時保證生成圖像的質量和與原圖的自然一致性?

為了填補這一空白,深度挖掘并客觀評估視覺編輯模型在理解復雜指令方面的能力上限,團隊推出了一項全新任務——Reasoning-Informed ViSual Editing (RISE)。

另外,他們還配套發布了一個高質量評測基準——RISEBench,覆蓋時間、因果、空間、邏輯四種核心推理類型,每個案例包含原圖和編輯指令。

圖片

例如輸入一張圖像,展示了一片草地上有片枯葉,上方有個放大鏡,任務指令為“畫出該場景在夏天30秒后的模樣”。

圖片

團隊測試了當前性能領先的九個視覺編輯模型,實驗測試結果令人意外:

即使是最強的GPT-4o-Image,在復雜視覺編輯任務中的準確率也僅為28.9%,最強的開源模型BAGEL僅能完成5.8%的任務,其它被測開源模型完成率幾乎為零,顯示出當前開源模型與閉源模型在視覺理解能力上的差距。

以下是更多細節。

RISEBench長啥樣?

與傳統評測基準不同,RISEBench旨在評估視覺編輯模型在各類需要深層理解的指令上的性能。它不僅僅停留在表面修改,更深入地探索視覺編輯模型對時間、因果、空間和邏輯等復雜概念的把握。

圖片

RISEBench精心設計了360道高難度問題,全部由人類專家仔細思考并校對,確保了問題的嚴謹性和挑戰性。這些題目被劃分為四大核心類別,旨在全面考驗模型的推理能力:

  • Temporal Reasoning(時間推理): 考驗模型對時間線索的理解和未來/過去狀態的預測。
  • Causal Reasoning(因果推理): 評估模型能否理解各類動作(碰撞,點燃,物理化學反應等)與結果之間的因果關系。
  • Spatial Reasoning(空間推理): 挑戰模型對物體空間位置、關系、視角變換等想象能力的掌握。
  • Logical Reasoning(邏輯推理): 衡量模型對抽象規則、數學運算、邏輯關系的推斷能力。

為了確保評估的全面性和泛化性,RISEBench的輸入圖像來源廣泛,包括互聯網數據、已有基準、模型生成圖像以及代碼生成圖像等多個不同分布的數據源。

這種多源異構的設計,能夠廣泛細致地考驗模型對不同輸入圖像和指令的應對能力,避免模型在特定數據分布上過擬合。

圖片

自動化的細粒度評估體系

為了精準、高效地評判模型輸出是否符合要求,作者團隊將整體評估拆分成了三個關鍵子維度,并采用前沿的多模態大模型作為評判專家(LMM-as-Judge)的方式,使用GPT-4.1作為評估模型對每個維度進行打分,確保評估的客觀性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否準確理解了指令的深層含義。

  • 對于輸出結果可用文字準確描述的指令,評估模型會判斷生成圖像與給定文本答案是否匹配。
  • 對于最終輸出難以用文字描述的復雜指令,我們針對性地提供了用于參考的圖像回答,評估模型將判斷生成圖像是否與參考圖像相匹配。

2、Appearance Consistency(外觀一致性): 評估生成圖像與原圖在背景以及風格、紋理等與指令無關的視覺元素上的一致性,確保編輯自然。

3、Visual Plausibility(視覺合理性): 衡量生成圖像的整體視覺質量、真實感和視覺合理性,避免出現不自然或失真的效果。

每個維度均為1-5分,當三個維度均為滿分時標記為完成了編輯任務。這種細粒度的評估設計顯著提升了模型打分與人類判斷的對齊程度,為未來視覺編輯模型的發展提供了更加可靠和公正的評估體系。

圖片

視覺編輯模型理解能力遠未及格

作者團隊對近期備受關注的多個閉源及開源模型進行了嚴格評估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及開源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

結果令人深思:

  • 全面欠缺: 測評結果明確指出,當前的視覺編輯模型在完成復雜指令方面仍存在相當大的欠缺。它們距離真正“讀懂”用戶的深層意圖,還有很長的路要走。
  • GPT-4o-Image一騎絕塵,但仍遠低于預期: 即使是目前公認最強的閉源模型GPT-4o-Image,在RISEBench上也僅僅只能完美完成28.9%的任務。
  • 閉源與開源差距顯著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分別僅能完成13.3%和9.4%的任務,與GPT-4o-Image之間存在著明顯的代際差距。更令人擔憂的是,最強的開源模型BAGEL僅能完成5.8%的任務,這彰顯出當前開源模型與閉源模型之間在視覺理解能力上的巨大鴻溝。 其他被測模型的完成率幾乎為零,暴露出其薄弱的理解能力。

圖片

為了更深入地分析各模型的表現,研究團隊還統計了每個模型在指令理解(Instruction Reasoning)、外觀一致性(Appearance Consistency)和視覺合理性(Visual Plausibility)這三個評估維度上的平均得分,揭示了其短板所在。

結果表明:

  • 領先者全面發展: GPT和Gemini系列模型在所有三個維度上都展現出了相對較高的水準,因此在整體任務完成度上表現相對更佳。
  • 開源模型短板明顯: BAGEL雖然在指令理解能力上僅次于GPT和Gemini,但在生成圖像的視覺合理性上得分較低,這意味著其輸出圖像往往存在更多的失真或模糊現象,影響了最終得分。
  • 各有側重,但均有缺陷: HiDream-Edit雖然具備部分理解能力,但在保持輸出圖像內容一致性上表現較差,容易出現與原圖脫節的情況。Step1X-Edit雖然能生成較高視覺合理性的圖像,但其指令理解能力和一致性表現均較低。
  • 理解力成為決定性因素: 其他模型由于幾乎完全沒有理解能力,且在保持一致性方面也表現不佳,最終導致其整體完成度接近于0。

團隊認為,這些細致的評估結果清晰地揭示了當前視覺編輯模型所面臨的嚴峻挑戰:

不僅僅是簡單的技術實現,更深層次的認知和推理能力才是決定未來模型性能的關鍵瓶頸。

圖片

最后,作者團隊展望未來并表示:

RISEBench的發布,標志著圖像編輯評測標準的一次重大升級。希望它能推動下一代視覺編輯模型發展,引領編輯模型從“模仿”走向“理解”,最終實現真正智能、富有創造力的視覺交互。

論文鏈接:https://arxiv.org/pdf/2504.02826GitHub鏈接:https://github.com/PhoenixZ810/RISEBench

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2023-11-07 18:08:03

GPT-4模型

2018-07-05 17:50:14

AI

2025-04-01 09:25:00

2025-05-07 13:51:49

模型數據

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-11-14 09:30:12

2024-05-14 11:29:15

2025-07-22 10:45:55

2021-08-04 09:48:05

數字化

2025-01-17 10:30:00

2011-08-04 16:58:12

惠普數學實驗室

2024-12-18 13:24:30

谷歌AI大語言模型

2011-02-24 17:31:41

2012-05-04 13:53:29

視頻加速傲游

2012-05-08 11:47:50

傲游視頻加速測試

2011-09-05 16:01:51

2024-06-28 18:13:05

2024-06-12 11:47:37

點贊
收藏

51CTO技術棧公眾號

超碰人人爱人人| 国产免费久久av| 熟女少妇一区二区三区| 91国内外精品自在线播放| 国产精品污网站| 91麻豆蜜桃| 亚洲熟女综合色一区二区三区| 亚洲97av| 日韩一区二区三区视频在线 | 欧美剧情片在线观看| 草草视频在线免费观看| 国产福利在线观看| 亚洲欧美丝袜中文综合| 天堂va欧美ⅴa亚洲va一国产| 亚洲成av人片一区二区梦乃| 日韩精品久久久免费观看| 国产特黄一级片| 久久午夜精品一区二区| 欧美国产视频一区二区| 欧美日韩中文字幕视频| 精品国产一区二区三区不卡蜜臂| 欧美日韩高清在线| 欧美牲交a欧美牲交| 国产盗摄在线观看| 久久久不卡网国产精品一区| 超碰97在线播放| 最新中文字幕在线观看视频| 亚洲精品社区| 欧美成人三级视频网站| 超碰人人人人人人人| 亚洲丁香日韩| 亚洲高清久久网| 一级黄色高清视频| 国产经典一区| 福利视频第一区| 91黄色在线看| av毛片在线免费| 中文字幕一区二区三区视频| 日本不卡久久| 免费看男男www网站入口在线| 成人免费视频caoporn| 91免费视频国产| 一级片在线免费观看视频| 久久综合导航| 国产福利精品在线| 亚洲国产av一区二区三区| 亚洲激情社区| 欧美精品第一页在线播放| 一起操在线播放| 婷婷另类小说| 久久久999精品免费| 国产视频123区| 日韩欧美高清在线播放| 中文字幕亚洲欧美在线| 超碰人人人人人人人| 欧美韩日高清| 久久午夜a级毛片| 欧美视频一区二区在线| 久久久久美女| 欧美高清电影在线看| 免费毛片在线播放免费| 伊人久久大香线蕉综合热线| 久久久视频精品| 国产 日韩 欧美 在线| 99国产精品久久久久久久| 国产91精品久久久久久久| 日韩手机在线视频| 日韩av一区二区在线影视| 国产精品综合不卡av| 一级黄色大片网站| 国产老妇另类xxxxx| 91亚洲人电影| 欧美视频久久久| 91亚洲精品久久久蜜桃| 日本不卡二区| 激情视频在线观看| 亚洲国产日韩a在线播放性色| 国产高清av在线播放| 波多野结衣在线观看| 日韩欧美亚洲国产一区| 成人性生交免费看| 伊人久久影院| 亚洲欧美日韩成人| 天天爽天天爽天天爽| 欧美日韩一视频区二区| 欧美一区二区三区艳史| 一区二区三区精| 国产成人免费在线观看不卡| 美媛馆国产精品一区二区| 91.xxx.高清在线| 夜夜嗨av一区二区三区网页 | 日韩一区二区三区四区| 特级西西人体wwwww| 色婷婷热久久| 久久久久国产一区二区三区| 91黑人精品一区二区三区| 狠狠久久亚洲欧美| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 亚洲成人第一| 26uuu亚洲电影在线观看| 精品福利一区| 精品动漫一区二区三区| 超碰在线97免费| 成人影院中文字幕| 一区二区亚洲欧洲国产日韩| 精品无码黑人又粗又大又长| 奇米色一区二区三区四区| 丁香五月网久久综合| 国产三级电影在线| 亚洲综合一区二区三区| 日日噜噜噜噜久久久精品毛片| 一区二区网站| 最新国产成人av网站网址麻豆| 国产精品23p| 久久99精品久久久| 久久五月天婷婷| 日本电影在线观看| 欧美私人免费视频| 一本加勒比波多野结衣| 午夜精品久久久久久久四虎美女版| 97视频在线看| www.国产三级| 成人欧美一区二区三区黑人麻豆| 欧美一区二区三区爽大粗免费| 精品精品视频| 色小说视频一区| 青青操免费在线视频| 国产福利一区二区三区在线视频| 四虎影院一区二区三区| 日韩伦理精品| 亚洲高清福利视频| 久久久久久久久久久久久久久久久| 青青草成人在线观看| 玛丽玛丽电影原版免费观看1977 | 久久出品必属精品| 日韩精品午夜| 国产成人一区二区三区| 能在线看的av| 日韩欧美精品在线观看| 香港三级日本三级| 在线视频观看日韩| 国产美女精品在线观看| 欧美aaaxxxx做受视频| 日韩无一区二区| 国产高潮国产高潮久久久91| 国内精品国产三级国产a久久| 亚洲精品影院| 欧美少妇激情| 久久精品国产久精国产思思| 97超碰中文字幕| 国产精品福利在线播放| 中文字幕丰满乱码| 99久久久国产精品美女| 国产日韩av在线播放| 拍真实国产伦偷精品| 欧美久久久久久蜜桃| 精品亚洲乱码一区二区| 国产精品自在欧美一区| 综合操久久久| 日韩精品一级| 欧美大片在线看| 神马一区二区三区| 福利视频第一区| 天天操天天干天天操天天干| 免费av成人在线| 日本女人高潮视频| 9999久久久久| 欧美一级电影久久| yes4444视频在线观看| 欧美性色综合网| 久久一级免费视频| 国产老肥熟一区二区三区| 国产日韩av网站| 奇米狠狠一区二区三区| 国产剧情日韩欧美| 大片免费在线看视频| 精品成人免费观看| 神马久久久久久久| 亚洲欧洲av在线| 成人一区二区三区仙踪林| 制服诱惑一区二区| 日韩高清av电影| 欧美专区视频| 热久久99这里有精品| 午夜在线小视频| 欧美精品一区视频| 欧美男人天堂网| 一区二区三区在线观看网站| 2一3sex性hd| 男人操女人的视频在线观看欧美 | 影音先锋男人在线资源| 亚洲国产91色在线| 亚洲精品一区二三区| 一区二区三区精密机械公司| wwwwxxxx国产| 国产精品亚洲成人| 欧美一级片中文字幕| 欧美一区二区| 欧美一区二区三区在线免费观看 | 欧美a一区二区| 免费cad大片在线观看| 久久av免费看| 国产精品美女久久福利网站| 一区二区在线中文字幕电影视频| 999久久久久久久久6666| 国产精品美女免费视频| 天堂av中文在线| 视频在线一区二区| 天堂av资源网| 欧美一区二区三区小说| 无码人妻精品一区二区三区蜜桃91| 亚洲美女免费在线| 欧美黄色一级生活片| 成人综合在线网站| 97人人爽人人| 视频一区二区欧美| 91免费黄视频| 欧美激情日韩| 中文字幕久精品免| 啪啪亚洲精品| 欧美国产一二三区| 国产伦理久久久久久妇女| 成人免费观看网址| 国产成人a视频高清在线观看| 91大神福利视频在线| 欧美大片黄色| 欧美精品在线观看| 免费在线看黄网站| 中文字幕欧美国内| 深夜福利视频在线观看| 亚洲国产精品久久久| 性中国古装videossex| 91精品国模一区二区三区| 国产精品无码粉嫩小泬| 色噜噜狠狠成人网p站| 日韩欧美一级视频| 午夜精品福利在线| 久久久久久久久久久网| 亚洲一区二区精品3399| 清纯粉嫩极品夜夜嗨av| 亚洲精品日日夜夜| 久久久久久久久久久久久女过产乱| 国产精品久久看| 91香蕉国产视频| 中文字幕制服丝袜成人av | 国产成人91久久精品| 免费成人在线电影| 欧美性做爰毛片| 亚洲伊人av| 日本欧美精品在线| 激情开心成人网| 国产精品美乳在线观看| 国产福利亚洲| 成人免费看黄网站| 精品午夜视频| 国产chinese精品一区二区| jizz18欧美18| 久久久福利视频| 国产精品免费99久久久| 五月天久久狠狠| 99久久99久久精品国产片果冰| 免费观看国产视频在线| 午夜电影亚洲| heyzo亚洲| 久热国产精品| 日韩在线一区视频| 国产成人小视频| 人妻在线日韩免费视频| 久久久91精品国产一区二区三区| 91麻豆精品国产91久久综合| 中文一区在线播放| 一区二区国产精品精华液| 一区二区三区免费看视频| 亚洲天堂日韩av| 91国在线观看| 99在线观看精品视频| 亚洲国产成人精品久久久国产成人一区| 五月婷中文字幕| 一区二区三区视频在线| 成人免费在线| 777午夜精品福利在线观看| 欧美日韩成人影院| 国产日韩精品视频| 国产精品一区二区中文字幕 | 李丽珍裸体午夜理伦片| 久久综合成人精品亚洲另类欧美 | 欧美日韩综合视频网址| 中文字幕一区2区3区| 精品日韩av一区二区| 黄色大片在线免费观看| 久久福利视频网| 韩日精品一区二区| 91九色单男在线观看| 婷婷五月色综合香五月| 中文字幕免费在线不卡| 国产一区二区三区久久| www.国产福利| 久久久久青草大香线综合精品| 亚洲天堂网av在线| 香蕉成人啪国产精品视频综合网| 在线观看免费中文字幕| 亚洲精品乱码久久久久久金桔影视| 天堂地址在线www| 97av在线视频| 欧美午夜在线播放| 日韩wuma| 国产手机视频一区二区| 亚洲天堂一区二区在线观看| 久久久91精品国产一区二区精品 | 激情91久久| www日韩在线观看| 国产成人免费视频网站 | 欧美日韩亚洲三区| 污视频免费在线观看网站| 波多野结衣中文字幕一区二区三区| www.涩涩爱| 91福利精品视频| 天堂在线视频网站| 欧美高清激情视频| 麻豆精品国产| 亚洲最大免费| 奇米888四色在线精品| 成年人网站免费在线观看| 亚洲一区二区三区不卡国产欧美| 一级aaaa毛片| 最近2019中文字幕mv免费看| 亚洲精品mv| 精品日韩美女| 亚洲美洲欧洲综合国产一区| 无码国产精品一区二区高潮| 欧洲毛片在线| 一本色道久久88综合亚洲精品ⅰ| 国产伦子伦对白在线播放观看| 99www免费人成精品| 一区二区中文字| 国产永久免费网站| 中国色在线观看另类| 精品成人无码久久久久久| 亚洲乱码一区二区| 欧美一级鲁丝片| 久久久人人爽| 久久午夜精品| 国产又粗又猛又爽又黄av| 日本精品一区二区三区四区的功能| 四虎影视精品成人| 欧美激情综合亚洲一二区| 岛国精品一区| 极品粉嫩国产18尤物| 99久久综合国产精品| 99热国产在线观看| 亚洲人精品午夜在线观看| 国产伦精品一区二区三区视频金莲| 久久精品国产精品青草色艺 | 丁香婷婷激情网| 国产视频911| 岳乳丰满一区二区三区| 久久精品99国产精品酒店日本 | 国产亚洲欧美一区二区三区| 亚洲茄子视频| 亚洲精品理论片| 欧美亚洲国产bt| 国产在线观看91| 高清一区二区三区视频| 在线看片一区| 国产美女免费无遮挡| 欧美日韩一级视频| 免费**毛片在线| 国产高清在线一区| 免费日韩精品中文字幕视频在线| 日韩av在线看免费观看| 欧美日韩午夜在线| 中文字幕有码在线视频| 国产一区二区高清视频| 日韩综合在线视频| 在线观看亚洲网站| 精品久久久久久亚洲综合网 | 在线毛片网站| 91九色偷拍| 亚洲综合不卡| 三级在线观看免费大全| 亚洲国产精品美女| 成人黄色免费网站| 国产亚洲黄色片| 国产视频在线观看一区二区三区 | 久久综合五月天婷婷伊人| 中文人妻熟女乱又乱精品| 久精品免费视频| 啪啪亚洲精品| 亚洲精品乱码久久久久久蜜桃欧美| 欧美日韩亚洲精品内裤| 黄视频网站在线| 看欧美日韩国产| 国产一区二区精品在线观看| 国产三级av片| 美女视频久久黄| 美女久久久久| 中文字幕在线播放一区二区| 91福利小视频| 欧美激情20| 蜜臀在线免费观看|