精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長上下文能力只是吹牛?最強GPT-4o正確率僅55.8%,開源模型不如瞎蒙

人工智能
與其他模型相比,PaliGemma在OK-VQA上表現出色,而Mantis在AI2D上表現也很好。這些差異可能是由于訓練任務的變化造成的。

大數字一向吸引眼球。

千億參數、萬卡集群,——還有各大廠商一直在卷的超長上下文。

從一開始的幾K幾十K,發展到了如今的百萬token級別。

Gemini的最新版本可以接收200萬個token作為上下文。

這大概相當于140萬個單詞、2小時視頻或者22小時的音頻。

但不知諸位平時用得著這么長的上下文嗎?畢竟100K已經相當于一部比較長的小說了。

更重要的是,LLM真的能在這個長度上進行推理嗎?

近日,有兩篇獨立研究分別表明:長上下文水分很大!LLM實際上并不能「理解」內容。

讀小說挑戰

首先是來自UMass、AI2和普林斯頓的研究人員,推出了一項針對性的測試。

圖片圖片

論文地址:https://arxiv.org/pdf/2406.16264

代碼和示例數據:https://github.com/marzenakrp/nocha

當前傳統的長上下文測試手段一般被稱為「大海撈針」(needle-in-a-haystack):

圖片圖片

將一個事實(針)嵌入到大量的上下文信息(干草堆)中,然后測試模型能否找到這根「針」,并回答與之相關的問題。

這種方式基本上衡量的是LLM的檢索能力,有些流于表面。

于是研究人員構建了NoCha(小說挑戰)數據集,讓模型根據所提供的上下文(書籍)驗證聲明的真假。

圖片圖片

如下圖所示,由小說的粉絲根據書籍內容,提出關于同一事件或角色敘述的一對相反的聲明。

LLM看完小說后需要分別判斷兩個問題的真假(確保是根據理解做題,打擊在考場上瞎蒙的)。

圖片圖片

對于一對問題的回答有四種情況,只有兩個問題全對時才能得一分。

研究人員測試了目前最強的一些長上下文模型(包括閉源和開源),并將成績單貼在墻上,公開處刑:

圖片圖片

首當其沖的是GPT-4o,雖然全班第一,但是55.75分。

而開源陣營的成績直接慘不忍睹,表現最好的Command R(simple)只有22.47%的準確率。

——要知道,這考試瞎蒙也能得25分(四選一)。

當然,這也說明人家不是瞎蒙的,確實動腦子了。

視覺上的長上下文

另一篇研究來自UCSB,考察的是視覺大模型(VLM)的長上下文能力。

圖片圖片

論文地址:https://arxiv.org/pdf/2406.16851

主要的實驗思路如下圖所示,研究人員通過不斷增加上下文長度(干擾圖片的數量),將現有的VQA基準和簡單圖像識別集 (MNIST) 擴展為測試長上下文「提取推理」的示例。

圖片圖片

結果在簡單VQA任務上,VLM的性能呈現出驚人的指數衰減。

圖片圖片

——LLM:原形畢露了家人們。

而與實際研究相對的,在今年早些時候,谷歌展示了幾個預先錄制的演示。

讓Gemini 1.5 Pro搜索阿波羅11號登月的電視直播記錄(約402頁),查找包含笑話的引語,以及在電視直播中找到與鉛筆素描相似的場景。

主持這次簡報會的谷歌DeepMind研究副總裁Oriol Vinyals表示,「Gemini 1.5 Pro可以在每一頁、每一個單詞上執行此類推理任務?!?/span>

一千零一夜

第一篇工作被作者命名為「One Thousand and One Pairs」(下面這盞燈應該也是這么來的)。

一千零一在這里有兩個含義,首先用于測試的材料基本都是小說,對于大模型來說,算是故事會了;

其次,作者真的花錢請人注釋了剛剛好1001個問題對。

為了保證模型無法依靠自己的知識來作弊,這1001個問題大部分來自于最近出版的虛構敘事類讀物。

數據收集

NoCha數據集包括63本新書(33本于2023年出版,30本于2024年出版)和四本經典小說,書籍的平均長度為127k個token(約98.5k個單詞)。

圖片圖片

注釋者首先寫出關于書中事件或人物的真實陳述,然后針對同一對象創建相應的虛假陳述,同時還需要給出一個簡短的解釋,說明為什么這些說法是正確或錯誤的。

圖片圖片

為了確保聲明的質量,作者聘請了讀過相同書籍的注釋者,來驗證五本書中的128個聲明,并最終對其中的124個達成了一致。

下面給出參加本次考試的考生信息(開源和閉源兩大陣營):

圖片圖片

以及考試成績:

圖片圖片

結果分析

如果按照小說類型劃分,所有六個閉源模型在歷史小說上的準確率為56.4%,當代小說為46.8%,推理小說為38.8%。

圖片圖片

對于每個模型來說,都是歷史小說的準確度最高,當代小說次之,推理小說的準確度最低。

從這個結果來看,貌似LLM的推理更多依賴于自身參數中的知識。

接下來做個對比實驗:如果某個主張可以通過書中的一小部分內容來單獨驗證,那么提供本書的其余部分是否會影響其準確性?

圖片圖片

上圖顯示了在四個短篇故事集上的模型性能,每兩行為一組,上面一行表示給出整本書(約129k token)時的準確率,下面表示只給出與聲明相關的部分(約21k token)。

Gemini對于添加上下文的表現相對穩健,而Claude-3-Opus的準確度直接下降了44.5%,Claude-3.5-Sonnet、GPT-4-Turbo和GPT-4o的表現也大幅下降。

作者表示,與句子層面的檢索任務相比,模型在驗證需要考慮整本書(或大部分)內容的問題時,顯得力不從心。

另外,書中的一些隱含信息對于人類讀者來說是明確的,但LLM卻無法理解。

大海撈針

另一項研究來自加州大學圣巴巴拉分校(UCSB),作者引入了 LoCoVQA,一種帶有干擾項的長上下文視覺問答 (VQA) 基準生成器。

LoCoVQA可以提供與問題相關的圖像序列,以及一組可配置的視覺干擾項,從而準確評估VLM如何在雜亂的上下文中僅提取與查詢相關的信息。

從原理上講,這也是一項「大海撈針」的任務。

另外,LoCoVQA的方法能夠以任意圖像理解數據集為基礎,創建長上下文圖像理解測試。

生成方法

通過LoCoVQA合成的樣本包含一個或多個與問答對(??、??)相對應的內容圖像??。

內容圖像可以從各種圖像理解基準中采樣,例如OK-VQA、MMStar 、MNIST等。

除了內容圖像之外,每個樣本還包括最多35個干擾圖像(來自相同或者不同的數據集)。

圖片圖片

VLM的輸入樣本可以是多個交錯的圖像,也可以是上面這種排列為網格的合成圖像。

單圖像推理任務

OK-VQA(Outside Knowledge Visual Question Answering)是一個單圖像視覺問答數據集,包含5072個問題-答案-圖像三元組。它需要外部知識來超越圖像進行推理。

圖片圖片

LoCoVQA生成分布內的長上下文OK-VQA樣本,確保內容圖像不會出現可能使評估復雜化的概念沖突。

實驗使用三個指標對樣本進行評分:精確匹配(如果模型的響應包含任何真實答案作為子字符串,則為滿分)、連續文本生成、和 ROUGE(候選人和推薦人之間)。

為了解決內容干擾沖突問題(視覺上下文中多個相似分布的圖像使QA對模糊),作者實現了一種基于LM的魯棒過濾方法。

對于每個視覺上下文圖像,提示GPT-4列出前五個實體,如果存在重疊,則認為該問題可能含糊不清。

多圖像推理任務

這里使用合成任務構建「序列VQA」數據集,將多個OCR示例作為交錯圖像輸入,要求VLM列出所有文本(OCR規范數據集采用MNIST)。

為了獲得所需的視覺上下文長度,研究人員從大約60K圖像的MNIST訓練集中采樣1到8個隨機顏色的數字,將它們的大小調整到其他上下文圖像最大高度的1/6到1/2之間。

剩余的干擾圖像是從5K個MS COCO的子集中隨機采樣的。VLM的任務是列出序列中存在的所有手寫數字。

圖片圖片

通過改變序列中的位數,可以動態調整多圖像干擾OCR任務的難度級別。

圖片圖片

上圖展示了9個圖像上下文中包含1、4 和8個數字的示例。僅當存儲的生成數字字符串與基本事實完全匹配時,輸出才被認為是正確的。

實驗

參賽的VLM如下圖所示:

圖片圖片

研究人員在LoCoVQA生成的基準上,評估了以上九種視覺語言模型的性能。

圖片圖片

上圖結果展示了單圖像LoCoVQA任務中,模型性能如何隨著視覺上下文長度的增加而變化。

圖片圖片

上圖為每個任務的模型在上下文長度為1、9和25時的性能,比較了不同模型在各種任務上的相對優勢。

與其他模型相比,PaliGemma在OK-VQA上表現出色,而Mantis在AI2D上表現也很好。這些差異可能是由于訓練任務的變化造成的。

參考資料:https://techcrunch.com/2024/06/29/geminis-data-analyzing-abilities-arent-as-good-as-google-claims/

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-01-15 12:27:11

2023-12-08 13:21:00

模型訓練

2025-05-26 09:05:00

2024-12-02 14:20:00

模型訓練

2024-09-30 14:10:00

2024-05-15 07:54:12

GPT-4oAI助手人工智能

2025-04-15 07:41:18

2025-08-07 14:05:40

OpenAI大模型開源

2024-06-05 13:09:26

2025-10-31 01:00:00

2025-05-06 15:32:23

模型AI測試

2024-11-28 15:51:19

GPT-4o微軟

2024-04-03 10:05:00

LLM性能基準測試

2025-10-20 09:06:00

2024-11-12 14:00:00

AI編程

2025-04-08 02:26:00

2025-02-26 00:16:56

RAGAI服務

2024-08-30 14:35:00

2025-03-17 12:55:18

2024-08-14 14:30:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

午夜老司机在线观看| 免费高清在线观看电视| 色在线视频网| 国产精品99久久久| 欧美精品久久久久久久免费观看| 久久久久亚洲av无码网站| 亚洲淫性视频| 99久久精品国产一区| 日本午夜精品理论片a级appf发布| 成人免费网站黄| 欧美97人人模人人爽人人喊视频| 亚洲四区在线观看| 国产综合第一页| 91丨九色丨海角社区| 国产精品伦理久久久久久| 欧美日韩亚洲综合在线 | 欧美一区2区| 在线成人免费视频| 只有这里有精品| 日本人妻熟妇久久久久久| 国产精品普通话对白| 中文字幕av一区二区三区谷原希美| 亚洲欧美日韩三级| 丁香花视频在线观看| 久久久精品国产免费观看同学| 国产精品欧美激情在线播放| 日本中文字幕免费在线观看| 精品欧美午夜寂寞影院| 91激情五月电影| 蜜桃网站在线观看| 国外av在线| 国产精品77777| 欧美亚洲日本黄色| 国产女片a归国片aa| 最新亚洲精品| 欧美一区二区日韩| 激情婷婷综合网| 日本小视频在线免费观看| 国产亚洲1区2区3区| 古典武侠综合av第一页| 中文字幕在线观看高清| 在线看片成人| 久久精品视频播放| 欧美黄色一级生活片| 成人影院网站ww555久久精品| 黑人巨大精品欧美一区二区三区| 手机在线视频你懂的| 国产黄色片在线播放| 99国产精品久久久久久久久久久| 91亚洲精品视频| 天堂网中文字幕| 91九色porn在线资源| 波多野结衣在线免费观看| 精品国产一区二区三区久久久蜜月| 国产综合网站| 国产在线自天天| 农村末发育av片一区二区| 91在线视频免费| 欧美综合在线视频| 国产精品美女免费看| 国产精品第九页| 91精品国产成人观看| 亚洲视频电影图片偷拍一区| 欧美丰满少妇人妻精品| 最新国产一区| 中文字幕亚洲欧美日韩在线不卡| 懂色av蜜桃av| 久久久影院免费| 精品国偷自产在线视频| 2018天天弄| 极品尤物久久久av免费看| 国内精品小视频在线观看| 亚欧视频在线观看| 噜噜噜91成人网| 国产精品视频一区二区高潮| 国产精品呻吟久久| 国产精品系列在线播放| 精品国产乱码久久久久久郑州公司 | 欧美男gay| 在线成人免费网站| 91在线播放观看| 亚洲国产午夜| 国产精品96久久久久久| 国产精品人人妻人人爽| www.亚洲色图| 日本在线成人一区二区| 久久五月精品| 黄色一区二区三区| 亚洲36d大奶网| 爱高潮www亚洲精品| 国产亚洲精品激情久久| 久久精品一区二区三区四区五区 | 大陆极品少妇内射aaaaa| 电影亚洲精品噜噜在线观看| 777奇米成人网| 第四色在线视频| 日韩一级毛片| 午夜欧美大片免费观看| 中文字幕在线日亚洲9| 高潮精品一区videoshd| 性刺激综合网| 欧美人与禽猛交乱配| 日本韩国欧美一区| 日本精品一二三| 999国产精品永久免费视频app| 欧美极品美女电影一区| 中文文字幕一区二区三三| 国产成人午夜精品5599 | 亚洲精品成人| 热久久免费视频精品| 国产丰满美女做爰| 国产人伦精品一区二区| 少妇高潮毛片色欲ava片| 日韩一区中文| 亚洲欧洲偷拍精品| 日韩精品一区三区| 国产精品中文字幕日韩精品 | 亚洲婷婷在线观看| 日韩精品一区二区久久| 97视频在线观看视频免费视频| 一卡二卡三卡在线| 久久日韩精品一区二区五区| 精品少妇人欧美激情在线观看| 亚洲国产尤物| 日韩精品视频观看| 久久免费在线观看视频| 黑人巨大精品欧美一区| 神马影院我不卡| 偷拍自拍在线看| 精品电影一区二区三区| 国产一区二区精彩视频| 蜜臀久久99精品久久久久久9 | 国产主播福利在线| 精品国产31久久久久久| 三级a三级三级三级a十八发禁止| 爱高潮www亚洲精品| 欧美高清视频在线播放| 国产视频在线一区| 中文字幕一区二区日韩精品绯色| 韩国日本美国免费毛片| 亚洲综合福利| 欧美亚洲第一区| 性高潮久久久久久久久久| 亚洲自拍与偷拍| 国产精品19p| 这里只有精品在线| 成人性生交大片免费观看嘿嘿视频| 成人jjav| 欧美日韩国产中文| 911国产在线| 国产真实精品久久二三区| 特色特色大片在线| 亚洲精品v亚洲精品v日韩精品| 欧美成人合集magnet| 国产成人精品a视频| 亚洲精品菠萝久久久久久久| 91大神免费观看| 午夜精品剧场| 国产精品一 二 三| 激情视频网站在线播放色| 亚洲护士老师的毛茸茸最新章节| 国产精品白浆一区二小说| 成人国产精品视频| 日韩国产欧美亚洲| 最新国产一区| 国产欧美日韩最新| 亚洲综合伊人久久大杳蕉| 精品国产伦一区二区三区观看方式 | 在线免费观看不卡av| 91l九色lporny| 老司机精品视频导航| 免费在线观看污污视频| 欧美h版在线观看| 欧美精品18videosex性欧美| 风流少妇一区二区三区91| 香蕉影视欧美成人| 久久久久久久久福利| 国内精品久久久久影院一蜜桃| 国产免费一区二区视频| 亚洲综合福利| 91在线看www| 国产伦子伦对白在线播放观看| 日韩精品在线免费观看| 一级片免费网站| 亚洲午夜久久久久久久久电影网 | 国产剧情一区| 成人羞羞国产免费| 天天舔天天干天天操| 男人天堂久久久| 九色porny自拍视频在线播放| 日韩精品一页| 成人教育av在线| 国产手机免费视频| 国产91久久精品一区二区| 成人福利在线观看| 岛国在线视频网站| 丝袜情趣国产精品| 色哟哟中文字幕| 日本高清不卡一区| 免费麻豆国产一区二区三区四区| 337p粉嫩大胆噜噜噜噜噜91av | 日韩在线卡一卡二| 男人添女荫道口喷水视频| 欧美精品一区二区久久| 动漫3d精品一区二区三区| **在线精品| 欧美精品videossex性护士| 电影在线高清| 亚洲成人久久电影| 国产精品久久欧美久久一区| 大桥未久av一区二区三区| 91嫩草丨国产丨精品| 久久久噜噜噜久久人人看 | 日本一区二区免费在线观看视频| 日本少妇一区二区三区| 日本美女一区二区三区视频| 成年女人18级毛片毛片免费| 91欧美国产| 国产成人免费观看| 精品视频一区二区三区| 国产成人精品久久| 日本在线播放一二三区| 欧美精品福利视频| 黄色软件在线| 精品日韩欧美一区二区| 国产青青草视频| 一本大道综合伊人精品热热| 日本熟妇毛茸茸丰满| 一区二区三区高清| 欧美人与禽zoz0善交| 久久免费电影网| 欧美污在线观看| 狠狠久久亚洲欧美| www.se五月| 蜜桃av一区二区在线观看| 亚洲熟妇av一区二区三区| 一本色道久久综合一区| 亚洲精品久久久久久久蜜桃臀| 亚洲国产精品综合久久久| 一区二区精品在线观看| 欧美精品一区二区三区精品| 欧美一级二级三级| 国产99久久| 日本一区高清不卡| 精品国产一区二区三区小蝌蚪| 美女三级99| 香蕉视频一区| 欧美精品一区二区三区在线四季 | 亚洲av少妇一区二区在线观看| av伦理在线| 国产酒店精品激情| 国产精品69页| 日日夜夜精品视频天天综合网| 欧美三级一级片| 亚洲欧洲一区二区天堂久久| 可以看毛片的网址| 在线亚洲成人| 国产欧美高清在线| 日韩高清欧美激情| 欧美大尺度做爰床戏| 麻豆精品在线看| 亚洲第一色av| 国产黄人亚洲片| www.啪啪.com| 久久久美女艺术照精彩视频福利播放| 女女互磨互喷水高潮les呻吟| 国产欧美日韩三级| 色老板免费视频| 亚洲va国产va欧美va观看| 国产超碰人人爽人人做人人爱| 高跟丝袜欧美一区| 国产偷人爽久久久久久老妇app | 国产男女猛烈无遮挡| 一区精品久久| 日韩第一页在线| 深夜视频在线免费| 亚洲人成网站999久久久综合| 黄色在线播放| 日韩视频欧美视频| 福利成人导航| 日本久久久久亚洲中字幕| 成人h在线观看| 亚洲xxxx在线| 一区二区导航| 小说区视频区图片区| 亚洲国产精品一区| 午夜免费高清视频| 国产 欧美在线| 久久中文字幕精品| 亚洲午夜精品久久久久久久久| 久久精品视频5| 欧美一区二区三区日韩视频| 亚洲 国产 欧美 日韩| 中文字幕欧美国内| 欧美aa在线观看| 国产专区精品视频| 亚洲bt欧美bt精品777| 可以免费看的黄色网址| 欧美三级小说| 狠狠热免费视频| 成人激情午夜影院| 日本黄色免费片| 欧美日韩激情视频8区| 99久久精品国产一区色| 亚洲欧洲黄色网| bl视频在线免费观看| 国产日韩av在线播放| 西野翔中文久久精品国产| 51xx午夜影福利| 日本不卡视频一二三区| 在线免费观看a级片| 中文字幕乱码在线播放| 亚洲欧美中文字幕| 精品精品导航| 91香蕉亚洲精品| 成人一区而且| 日本成年人网址| 成人午夜在线播放| 美女视频久久久| 色av综合在线| 香蕉久久一区二区三区| 欧美国产日韩二区| 亚洲狼人综合| 日本一区视频在线观看免费| 99精品国产福利在线观看免费| 日本国产一级片| 国产精品天天看| 伊人中文字幕在线观看| 亚洲激情 国产| 国产天堂在线播放视频| 91久久精品视频| 97视频精品| 99热这里只有精品在线播放| 久久蜜桃香蕉精品一区二区三区| 国产乡下妇女做爰| 欧美成人精品1314www| 男人添女人荫蒂国产| 嫩草成人www欧美| 一区二区三区少妇| 午夜久久久影院| 亚洲欧美强伦一区二区| 九九精品在线观看| 日韩免费一级| 在线观看18视频网站| 韩国v欧美v日本v亚洲v| 国产一区在线观看免费| 欧美日韩免费不卡视频一区二区三区| 国产高清视频在线| 国产精品极品美女在线观看免费| 精品在线观看入口| 116极品美女午夜一级| 91香蕉视频mp4| 久久久久久久久久久影院| 亚洲精品在线91| 国产亚洲一区二区手机在线观看 | 午夜视频在线播放| 97视频在线观看视频免费视频| 欧美jizz19性欧美| 国产欧美高清在线| 国产精品区一区二区三| 国产露脸国语对白在线| 久久久精品免费| 97视频一区| 色欲av无码一区二区人妻| 国产日产欧产精品推荐色| 亚洲自拍第二页| 欧美日韩第一页| 国产三级精品三级在线观看国产| 男女视频网站在线观看| www国产精品av| 亚洲免费视频二区| 久久777国产线看观看精品| 精品国内亚洲2022精品成人| 一本久道中文无码字幕av| 国产精品色哟哟| www久久久com| 欧美野外猛男的大粗鳮| 99久久精品费精品国产风间由美| 97免费公开视频| 欧美午夜精品久久久久久久| av在线播放网| 不卡的av一区| 日韩激情视频网站| 看片网站在线观看| 亚洲欧美国产一本综合首页| 4438五月综合| 国产深夜男女无套内射| 国产精品久久久久影院老司 | 成人激情免费网站| 黄色av一区二区| 久久久久国产视频| 成人精品中文字幕| 91精品又粗又猛又爽| 色拍拍在线精品视频8848| caopen在线视频| 日韩成人av电影在线| 成人在线视频一区二区| 最近中文字幕av| 992tv成人免费影院| 99久久久久|