精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅0.2B就比GPT-4.1強?加州大學新指標:組合推理基準首次超越人類

人工智能 新聞
加州大學河濱分校團隊發現,AI組合推理表現不佳部分源于評測指標過于苛刻。他們提出新指標GroupMatch和Test-Time Matching算法,挖掘模型潛力,使GPT-4.1在Winoground測試中首次超越人類,0.2B參數的SigLIP-B16在MMVP-VLM基準測試上超越GPT-4.1并刷新最優結果。

前沿的人工智能模型雖然在眾多任務上取得了顯著進展,但研究發現,它們在組合推理 (compositional reasoning) 方面仍表現不佳,在多個經典基準測試上甚至低于隨機猜測水平。

加州大學河濱分校Yinglun Zhu研究團隊重新審視了這一問題,發現其根源之一在于評測指標本身——它系統性地低估了模型的真實能力。

博客鏈接:https://yinglunz.com/blogs/ttm.html

論文鏈接:https://arxiv.org/pdf/2510.07632

代碼鏈接:https://github.com/yinglunz/test-time-matching 

團隊據此提出了新的GroupMatch指標,能夠挖掘被現有評測掩蓋的潛在能力,使GPT-4.1首次在Winoground基準測試上超越人類表現。

基于這一洞見,團隊進一步提出一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching(TTM),可在模型推理階段顯著提升性能。

得益于TTM,僅0.2B參數的SigLIP-B16就在MMVP-VLM基準測試上超越了GPT-4.1,刷新了當前最優結果。

研究背景

組合推理(compositional reasoning)體現了AI是否具備「舉一反三」的能力——能否將對象、屬性和關系重新組合,去理解新的情境。

像Winoground這樣的基準測試通過2×2群組設計來考察這種能力:其中兩條文本用詞相同但順序不同,每條只對應其中一張圖像。

盡管這些模型在多模態任務中表現出強大能力,但對比式視覺語言模型(VLMs)和多模態大語言模型(MLLMs)在這類基準測試中表現依然有限。

在Winoground基準測試上,即便是前沿模型的得分也遠低于人類水平(約85.5分);

此前的最佳結果僅為58.75,且是通過對GPT-4V進行scaffolding和prompt tuning實現的。

重新審視評測指標

從隨機猜測到群組匹配

加州大學河濱分校(UCR)研究團隊發現,模型在組合推理任務中的低分,部分源自評測指標本身。

當前廣泛使用的GroupScore指標過于嚴格:它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配,但并不檢查整個群組的全局一致性

只要有一次錯配,整組得分就會被判為0。

假設每組包含k張圖像和k條文本描述,GroupScore只逐一檢查圖像與文本之間的匹配情況,而忽略整體關系。

在隨機匹配下,成功率僅為 (k?1)! / (2k?1)!;當k = 2時,這個概率只有六分之一。

為解決這一問題,團隊提出了新的GroupMatch指標,用于評估群組內的整體最優匹配,而不是孤立的成對比較。

GroupMatch會考慮所有可能的匹配方式(共k!種),并選擇最可能的那一個。

這樣,在隨機猜測下的成功率提升為1 / k!——當k = 2時為二分之一,比原來的六分之一大幅提高。

更關鍵的是,如果模型能在GroupMatch下找到正確匹配,只需在測試階段對該匹配進行過擬合,就能在原始GroupScore下獲得滿分。

基于這一發現,團隊提出了一個簡單的SimpleMatch兩步法:

1. 使用 GroupMatch 選擇最可能的匹配;

2. 在測試階段對該匹配進行過擬合。

如上圖所示,SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數的SigLIP-B16超越了此前所有結果,并使GPT-4.1首次在Winoground上超過人類表現。

Test-Time Matching

在測試階段自我迭代提升模型能力

為進一步提升模型表現,UCR研究團隊提出了一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching (TTM)

每次迭代包括三個步驟:

1. 模型對所有群組進行匹配預測;

2. 僅保留置信度高的匹配(即得分差距超過閾值)作為偽標簽,并在這些偽標簽上自我微調;

3. 隨著迭代進行,逐步放寬閾值,以納入更多樣本。

TTM的核心在于兩點:

1. 基于GroupMatch的偽標簽能更有效地利用群組結構,提供更強的監督信號;

2. 閾值的逐步衰減機制讓模型先從高置信數據學習,再逐步擴展覆蓋范圍。

這一算法可以看作測試時訓練 (test-time training) 的一種形式,結合了自訓練 (self-training)、半監督學習 (semi-supervised learning) 和主動學習 (active learning) 的思想。

從實驗結果來看,TTM在多個數據集和模型上都穩定優于 SimpleMatch:相對性能提升最高可達 10.5%,相對錯誤率下降54.8%

值得注意的是,TTM讓SigLIP-L16在ColorSwap數據集上提升至GPT-4.1的水平,并使SigLIP-B16(僅0.2B參數)在MMVP-VLM上超越GPT-4.1,刷新了當前最優結果

TTM的廣泛適用性

雖然前面的結果主要基于方形群組(k×k)的組合推理任務,但TTM同樣適用于矩形群組,甚至是沒有群組結構的數據集。

指標變化不帶來提升的情況

在只有1×k結構的群組中,GroupMatch與GroupScore等價,因此單純更換指標并不會改進結果。

即便如此,TTM在SugarCrepe和WhatsUp等數據集上依然帶來了顯著提升,其中在WhatsUp上的相對增幅高達85.7%,讓原本困難的任務變得可解。

無群組結構的情況

TTM還能將整個數據集視為一個全局的「圖像-文本匹配問題」(assignment problem),并在多項式時間內求解。

即使將Winoground、MMVP-VLM和ColorSwap等數據集全部「打平」為無群組結構,TTM依然能顯著提升表現,最高可帶來33.3%的相對錯誤率下降。

討論與展望

UCR研究團隊重新審視了多模態模型在組合推理上的長期難題,指出:許多被認為的「失敗」,其實源自評測指標的局限。

團隊提出的GroupMatch指標與Test-Time Matching (TTM) 算法表明,模型的組合推理能力早已存在——只需要在測試階段,用合適的方法將其「解鎖」。

在覆蓋16個不同數據集變體的系統實驗中,TTM在多種設置下都展現出穩定而顯著的改進,推動了多模態推理研究的前沿進展。

展望未來,團隊認為有兩個方向值得進一步探索:

  • 重新思考模型評估:同一個模型在不同指標下可能表現出截然不同的能力,這提醒我們需要建立更穩健、更統一的評測框架。
  • 將TTM推廣至組合推理之外:雖然TTM起源于組合推理,但它的核心思想——在測試階段進行匹配式自訓練——具有普適性。該思路有望在更廣泛的多模態和語言任務中發揮作用,推動AI模型邁向真正的「自適應、自進化」。
責任編輯:張燕妮 來源: 新智元
相關推薦

2025-08-15 14:53:43

2023-04-06 10:36:04

谷歌人工智能

2023-12-05 13:28:00

AI模型

2013-08-08 10:10:28

華為云存儲華為

2009-04-01 18:44:48

Vmware虛擬化存儲

2009-01-08 10:09:12

Xiotech存儲虛擬化惠普

2025-06-03 08:12:00

模型框架訓練

2024-06-27 12:45:30

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2021-04-07 09:47:59

勒索軟件攻擊數據泄露

2009-01-08 17:19:28

服務器虛擬化南加州

2023-09-05 13:12:00

AI數據

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-06-04 09:05:18

2025-04-16 09:30:16

2021-10-11 10:30:46

機器學習人工智能計算機

2024-08-28 10:30:00

2021-06-25 15:41:45

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

一区二区日韩av| 日韩av一二三| 精品色999| 日韩欧美在线视频免费观看| 香蕉久久免费影视| 精品人妻aV中文字幕乱码色欲| 精品1区2区3区4区| 亚洲色图激情小说| 深夜福利网站在线观看| 色偷偷色偷偷色偷偷在线视频| 中文字幕成人网| 成人片在线免费看| 黄色在线视频网址| 亚洲私拍自拍| 最近中文字幕日韩精品| 女同性恋一区二区三区| 欧美亚洲黄色| 欧美性精品220| 久艹在线免费观看| 乱人伦中文视频在线| 夜夜躁很很躁日日躁麻豆| 日韩av系列| 欧美一区二区三区视频| 任你操这里只有精品| 伦理av在线| 国产精品国产三级国产普通话三级 | 欧美日韩理论| 中文字幕欧美日韩| 波多野结衣福利| 国产精品jk白丝蜜臀av小说| 91精品黄色片免费大全| 91在线视频观看免费| 97超碰免费在线| 一区二区三区中文在线| 中文字幕久久综合| 91在线视频| 国产日产亚洲精品系列| 精品视频高清无人区区二区三区| 国产福利免费视频| 韩国精品免费视频| 91久久中文字幕| 一级片一区二区三区| 日韩国产精品久久久久久亚洲| 91sa在线看| 国产精品国色综合久久| 国产第一页在线播放| 在线看片不卡| 久久综合久久八八| 黄色香蕉视频在线观看| 色小子综合网| 久久久91精品国产| 性欧美videos| 亚洲女同中文字幕| 欧美xxxx综合视频| 一区二区成人免费视频| 欧美啪啪一区| 欧美激情国产精品| 日韩成人在线免费视频| 一本色道久久综合亚洲精品不| 性亚洲最疯狂xxxx高清| 日韩在线观看第一页| 国产桃色电影在线播放| 91免费精品| 亚洲精品福利资源站| 中文字幕天堂网| 激情av综合| 亚洲人成人99网站| 日本猛少妇色xxxxx免费网站| 日本成人小视频| 最近免费中文字幕视频2019| 久久av红桃一区二区禁漫| 亚洲精品97| 久久久久久国产精品美女| 日韩欧美三级视频| 日韩不卡免费视频| 91久久精品美女| 好吊视频一二三区| 久久午夜免费电影| 伊人久久av导航| 免费在线播放电影| 日韩欧美一区二区在线| 五月婷婷激情久久| 亚洲视频国产精品| 亚洲欧美日韩国产精品| www日韩在线| 亚洲黄色在线| 国产精品欧美激情在线播放| 99久久精品日本一区二区免费| 成人av片在线观看| 丝袜美腿玉足3d专区一区| 91亚洲天堂| 色网综合在线观看| 老女人性生活视频| 嫩草影视亚洲| 成人免费看的视频| 成人激情春色网| 男人天堂手机在线观看| 久久久99久久精品欧美| 永久免费在线看片视频| 美女91在线看| 91精品国产色综合久久ai换脸| 奇米777第四色| 日韩黄色大片| 69国产精品成人在线播放| 在线免费看毛片| 91免费看视频| 成人午夜免费剧场| 欧洲av一区二区| 精品久久久久99| 日本精品久久久久中文| 亚洲经典视频在线观看| 91视频九色网站| 激情小说 在线视频| 伊人色综合久久天天人手人婷| 日本新janpanese乱熟| 国产aⅴ爽av久久久久| 国产日本亚洲| 亚洲深夜福利网站| 日韩激情在线播放| 精品在线亚洲视频| 秋霞毛片久久久久久久久| 亚洲色图美国十次| 777精品伊人久久久久大香线蕉| 色婷婷av777| 怡红院精品视频在线观看极品| 国产专区欧美专区| 国产51人人成人人人人爽色哟哟| 婷婷成人激情在线网| 最新中文字幕日本| 欧美视频导航| 91系列在线播放| 蜜桃视频网站在线| 欧美日韩精品电影| 丁香花五月婷婷| 日韩国产在线观看一区| 品久久久久久久久久96高清| 美女网站在线看| 亚洲国产欧美精品| 国产成人avxxxxx在线看| 久久精品五月天| 91丨porny丨最新| 欧美 丝袜 自拍 制服 另类| 97视频一区| 欧美国产精品va在线观看| 国产情侣av在线| 亚洲精品中文在线影院| 久久精品国产99久久99久久久| 小处雏高清一区二区三区| 国产在线不卡精品| а√天堂官网中文在线| 日韩一区二区不卡| 久久这里只有精品免费| 成人小视频免费在线观看| 国产va亚洲va在线va| 国产美女撒尿一区二区| 91国内产香蕉| 深夜影院在线观看| 色就色 综合激情| 91精品久久久久久久久久久久| 日本91福利区| 中文字幕一区二区三区四区五区人| 欧美性生活一级| 欧美另类暴力丝袜| 欧洲成人一区二区三区| 精品欧美一区二区三区| 免费一级做a爰片久久毛片潮| 日韩精品久久理论片| 在线一区日本视频| 一区二区三区在线资源| 欧美在线激情视频| 无遮挡的视频在线观看| 欧美mv日韩mv国产网站app| 国产成人无码一区二区三区在线| 2024国产精品视频| 北条麻妃视频在线| 综合av在线| 国产一区国产精品| 国内精品伊人| 欧美国产日韩xxxxx| 日本大片在线观看| 7777精品伊人久久久大香线蕉的 | 欧美日韩电影在线| 亚洲二区在线播放| 99精品国产一区二区三区不卡| 男人透女人免费视频| 亚洲天堂一区二区三区四区| 国产日韩欧美亚洲一区| 69堂免费精品视频在线播放| 欧美成人性生活| 青草久久伊人| 制服丝袜av成人在线看| 国产区在线观看视频| 国产精品久久福利| av黄色一级片| 久久国产婷婷国产香蕉| 男的插女的下面视频| 欧美伦理在线视频| 国产伦精品一区二区三区四区免费| 午夜无码国产理论在线| 欧美成人性生活| yiren22综合网成人| 精品国产一二三| 亚洲手机在线观看| 欧美日韩国产麻豆| 久久久久香蕉视频| 国产精品丝袜91| 在线免费观看a级片| 激情图片小说一区| www日韩视频| 日韩午夜在线电影| 永久免费看av| 成人高清av| 欧美不卡1区2区3区| 日韩区欧美区| 国产精品永久在线| 成人香蕉视频| 97在线精品国自产拍中文| 黄色av电影在线观看| 国产一区二区欧美日韩| 午夜18视频在线观看| 日韩欧美专区在线| 国产精品欧美综合亚洲| 欧洲激情一区二区| 国产精品久免费的黄网站| 亚洲自拍另类综合| www日韩在线| 国产精品久久免费看| 波多野结衣办公室33分钟| 久久久pmvav| 色欧美片视频在线观看| 国产无套粉嫩白浆内谢| 一区二区免费在线| 日本黄色片免费观看| 亚洲欧洲99久久| 国精产品视频一二二区| 亚洲国产精品二十页| 久久国产柳州莫菁门| 91老师片黄在线观看| 999精品免费视频| 97精品久久久久中文字幕| youjizz.com日本| 成人午夜免费av| www.啪啪.com| av一区二区久久| 亚洲av网址在线| 91免费看视频| 欧美黄色一级生活片| 久久久不卡影院| 精品国产aaa| 国产精品国产三级国产| 永久免费看片直接| 一区二区三区中文字幕在线观看| 丁香花五月激情| 一区二区三区加勒比av| 久久久精品国产sm调教| 亚洲高清视频的网址| 天堂网一区二区三区| 一本久久a久久免费精品不卡| 日韩不卡在线播放| 欧洲另类一二三四区| 91麻豆视频在线观看| 91精品福利在线一区二区三区| 国产成人三级一区二区在线观看一| 精品日韩在线观看| 日漫免费在线观看网站| 亚洲日本成人女熟在线观看| 国产精品视频一区二区久久| 日韩在线免费高清视频| av观看在线| 午夜精品一区二区三区在线视 | 国内精品不卡| 欧美激情精品久久久久久免费印度| freexxx性亚洲精品| 日韩av男人的天堂| 欧美亚洲黄色| 国产美女精品在线观看| 国产精品亚洲片在线播放| 午夜久久久影院| 99久久99久久精品国产| 亚洲一区二区三区免费视频| 欧美一区二区三区网站| 777精品伊人久久久久大香线蕉| 欧美 日韩 国产 成人 在线 91| 亚洲美女激情视频| 菠萝蜜视频国产在线播放| 91国产美女视频| 日本免费成人| 国产一区免费视频| 国产精品黑丝在线播放| 久久黄色片视频| 另类中文字幕网| 亚洲一区二区在线免费| 国产免费成人在线视频| 精品午夜福利视频| 欧美老人xxxx18| 深夜福利视频在线免费观看| 久久精品国产电影| 性欧美xxx69hd高清| 97免费高清电视剧观看| 欧美精选视频在线观看| 黄网站欧美内射| 狠狠色丁香婷婷综合| 永久免费看mv网站入口78| 亚洲综合男人的天堂| 中文字幕在线观看你懂的| 亚洲精品suv精品一区二区| 超碰电影在线播放| 国产精品成人一区二区三区吃奶| 日韩在线亚洲| 在线视频福利一区| 日一区二区三区| www.com日本| 亚洲色图在线视频| 亚洲熟女乱色一区二区三区久久久 | 久草综合在线观看| 99re热这里只有精品视频| 国产人妻精品一区二区三区不卡| 色吊一区二区三区| 色在线免费视频| 久久久免费精品| 久久亚洲精精品中文字幕| 一本久道久久综合| 日本亚洲免费观看| 午夜在线观看一区| 欧美日韩激情小视频| 三级网站在线看| 欧美精品videos| 免费精品一区| 亚洲午夜在线观看| 男人的天堂亚洲一区| 丰腴饱满的极品熟妇| 日韩大陆av| av观看久久| 亚洲色图二区| 日本一二区免费| 欧美激情综合网| 五月天婷婷导航| 亚洲精品自在久久| 九九精品调教| www.久久草| 激情久久婷婷| 亚洲中文字幕无码一区| 香蕉av福利精品导航| 日本免费一区视频| 97精品一区二区视频在线观看| silk一区二区三区精品视频| 日韩 欧美 视频| jlzzjlzz亚洲日本少妇| 99久在线精品99re8热| 亚洲激情视频在线播放| 日韩影院在线| 日韩精品久久一区二区三区| 日本一不卡视频| 国产中文字幕久久| 欧美高清视频在线高清观看mv色露露十八| 日本www在线观看| 成人av色在线观看| 午夜欧美精品| 免费成人蒂法网站| 在线免费精品视频| 免费看美女视频在线网站| 亚洲综合精品伊人久久| av不卡在线看| 中文字幕免费在线看线人动作大片| 欧美日韩亚洲综合一区| 精品孕妇一区二区三区| 成人毛片网站| 香蕉精品999视频一区二区| 国产 欧美 在线| 91精品国产91热久久久做人人| av有码在线观看| 欧美一区1区三区3区公司 | 成人免费黄色网页| 国产自产女人91一区在线观看| 在线精品国产| www.自拍偷拍| 欧美日韩一区二区不卡| 中文在线字幕免费观看| 国产亚洲二区| 蜜乳av一区二区三区| 久久国产在线视频| 亚洲欧美中文另类| 精品中文字幕一区二区三区| 欧美成人免费在线观看视频| 中文字幕不卡一区| 日本韩国在线观看| 国产精品三级网站| 亚洲午夜精品久久久久久app| 免费在线观看你懂的| 欧美一区二区三区思思人| 中老年在线免费视频| 黄黄视频在线观看| 国产婷婷色一区二区三区在线| 精品人妻伦一二三区久久| 国产成人一区二区三区| 亚洲天堂激情| 成年人免费视频播放| 日韩精品极品在线观看播放免费视频| 波多野结衣福利| 中文字幕av在线一区二区三区|