精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

人工智能 新聞
近日,谷歌也發布了一個高難度基準:BIG-Bench Extra Hard,簡稱 BBEH。從名字也能看出來,這個基準非常難(Extra Hard)并且與久負盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關系密切。

隨著 AI 能力的提升,一個常見的話題便是基準不夠用了——一個新出現的基準用不了多久時間就會飽和,比如 Replit CEO Amjad Masad 就預計 2023 年 10 月提出的編程基準 SWE-bench 將在 2027 年飽和。

也因此,為了更加準確地評估 AI 模型的能力,不斷有研究團隊構建出新的數據集和基準,比如我們前段時間報道過的 ZeroBench 和 HLE(人類的最后考試),它們都帶有大量當前的 AI 模型難以解決的難題。

近日,谷歌也發布了一個高難度基準:BIG-Bench Extra Hard,簡稱 BBEH。從名字也能看出來,這個基準非常難(Extra Hard)并且與久負盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關系密切。

  • 論文標題:BIG-Bench Extra Hard
  • 論文地址:https://arxiv.org/pdf/2502.19187
  • 數據地址:https://github.com/google-deepmind/bbeh

正如其論文一作  Mehran Kazemi 指出的那樣,相比于 BIG-Bench Hard,BBEH 中每個任務都更加困難,給當前所有模型都創造了進步空間。

另一位作者、DeepMind 著名研究科學家 Yi Tay 也建議 AI 研究者在自己的下一篇論文中使用該基準。

那么,BBEH 究竟有多難呢?當前能力最強的 o3-mini (high) 得分也僅有 44.8 分,不及格。而其它被測模型的得分均不超過 10 分!DeepSeek-R1 僅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遺憾的是,該團隊并沒有給出近期發布的 Grok-3 與 Claude 3.7 Sonnet 的表現。

該團隊在論文中解釋了構建 BBEH 基準的動機,其中指出目前對推理模型的評估大都依賴數學、科學和編程基準,而涉及到更多方面的 BIG-Bench 及其更難的子集 BIG-Bench Hard(BBH)基準則正趨向飽和 —— 當前領先的模型在 BBH 上的準確度都已經超過 90%。因此,BBH 已經無力評估前沿模型的推理能力。

BBEH 便應運而生,其設計目標是「評估高階推理能力」。

BIG-Bench Extra Hard

BBEH 是基于 BBH 構建的——將 BBH 中的 23 個任務中的每一個都替換成了另一個在類似推理領域中并測試類似(或更多)技能的任務,當然,新任務的難度要大得多。這種替換方法可以確保新數據集保留了原始 BBH 數據集的高度多樣性。

表 1 給出了 BBEH 中新任務的高層級描述,包括它們是如何構建的以及它們替換了 BBH 中的哪個任務,以及它們針對哪些推理技能。

該基準中,每個任務包含 200 個問題,但 Disambiguation QA 任務例外,有 120 個問題。

下圖展示了一些具體任務示例:

該論文的詳細創建過程以及對 BBEH 數據集的分析請參閱原論文,下面我們重點來看看前沿模型在該基準上的表現以及相關分析結果。

模型表現及分析

首先來看各家前沿模型的表現如何,下表是準確度分數詳情。

根據此結果,該團隊得出了幾個有趣的觀察:

  • 模型在各個任務上都有很大的進步空間,在 BBEH 整體上也是如此。
  • 通用模型的最佳性能為 9.8% 的調和平均準確率。推理專用模型在該基準上的表現優于通用模型(符合預期),但這些模型在 BBEH 上的最佳性能仍只有 44.8%。
  • 盡管采用了對抗性結構,但參考 Thinking 模型在 BBEH 上的調和平均準確率仍只有 20.2%。
  • 一些模型的準確率甚至低于隨機性能。經檢查,他們發現原因大多是模型無法在有效輸出 token 長度內解決問題并在某個點之后開始退化,因此無法從其解答中提取出最終答案。

另外,還能看到不同模型擅長不同類型的推理。例如,DeepSeek R1 在 BoardgameQA 上的表現明顯優于其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表現明顯優于其他模型,GPT4o 在 NYCC 上的表現明顯優于其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表現明顯優于其他模型。

該團隊還進行了進一步的結果分析。

通用模型與推理模型

推理模型可以利用更多測試時間計算進行思考,因此在涉及數學和編碼的推理任務上實現了巨大的性能飛躍。例如,在 AIME2024 數據集上,GPT4o 的性能為 13.4%,但 o1 模型將其提高到 83.3%,o3-mini (high) 將其進一步提高到 87.3%。

在這里,該團隊檢查了不同類型的一般推理是否也是如此。

如圖 5 所示,該團隊分別將 o3-mini (high) 和 GPT4o 作為推理和一般模型的模范,在 BBEH 的每個任務上進行了比較,并根據 o3-mini (high) 相對于 GPT4o 的增益程度對任務進行升序排序。

可以觀察到,增益最大的任務是那些涉及計數、規劃、算術以及數據結構和算法的任務。而增益最少(有時為負值)的任務大多涉及常識、幽默、諷刺和因果關系。

結果表明,推理模型在解決形式化問題時會取得最顯著的收益,而在處理復雜的現實場景時(通常需要軟推理技能)則收益有限。

模型大小的影響

該團隊還探討了模型大小對模型性能的影響。

如圖 6 所示,他們在 BBEH 的不同任務上比較了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,并根據 Flash 相對于 Flash-Lite 的收益按升序方式對任務進行排序。

雖然信號不如將一般模型與推理模型進行比較時那么清晰,但仍然可以觀察到與幽默、常識和因果推理相關的任務收益最少,而需要多跳推理或應用算法的任務收益最大。

一個特殊的例外是 SARC Triples 任務,這是一個諷刺理解任務,并且收益很大。這可能部分是由于 SARC Triples 中的每個樣本都是三個子問題的組合,而較大的模型可能更擅長處理這種復合問題。

上下文長度和所需思考的影響

BBEH 中的任務具有不同的平均上下文長度,并且可能需要不同的思考量。基于此,可以了解上下文長度和所需思考對推理與一般模型以及較大模型與較小模型的影響。

圖 7 比較了 o3-mini (high) 與 GPT4o 以及 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite 的性能,這里使用了任務平均上下文長度和平均輸出長度作為所需思考的代理。

可以觀察到,無論是在上下文長度增加時,還是在所需思考增加時,o3-mini 的收益都比 GPT4o 更高;這表明與一般模型相比,推理模型在兩個方向上都可能有所改進。對于 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite,可以看到當上下文長度增加時,收益也有類似的增長,但思考增加時,曲線基本保持平坦。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-18 09:00:00

2025-02-14 10:47:40

2025-02-17 08:12:00

AI模型生成

2025-02-08 11:44:03

2025-01-24 15:03:27

2022-06-13 10:43:11

谷歌模型學者

2025-02-03 14:06:32

2025-03-13 06:34:49

2025-02-03 12:38:28

2024-12-24 16:15:04

2025-03-31 08:00:00

AI模型測評

2025-02-19 08:00:00

2024-01-15 14:44:19

語言模型PaLMAI

2025-02-10 00:00:01

2025-08-18 17:16:45

AIChatGPT模型

2025-01-20 19:52:50

2025-02-24 14:05:00

LLM模型AI

2025-02-03 14:17:27

2025-04-22 09:12:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

日本不卡的三区四区五区| 久久中文字幕一区二区| 日本一区二区三区四区| 日本高清视频一区| 殴美一级黄色片| 国产日韩三级| 欧美日韩精品一区二区在线播放 | 91麻豆精品国产综合久久久 | 国产自产v一区二区三区c| 久热精品视频在线观看| 无码人妻精品一区二区三应用大全| 国产美女一区视频| 久久精品一区二区| 成人18视频| 一区二区小视频| 亚洲深夜av| 九九热精品视频国产| 欧美多人猛交狂配| 国产精品极品国产中出| 欧美乱妇15p| 噜噜噜久久亚洲精品国产品麻豆| 手机在线观看毛片| 国产一区二区三区在线看麻豆| 色综合伊人色综合网| 亚洲成av人片在线观看无| 高清在线一区二区| 欧美午夜一区二区| www.国产区| 都市激情国产精品| 亚洲综合色成人| 日韩国产精品毛片| 免费黄色在线网站| 国产精品久久久久影院老司| 欧美精品尤物在线| 日韩av地址| 99久久亚洲一区二区三区青草| 欧美一级电影在线| 国产91av视频| 欧美日本一区二区视频在线观看| 精品成人一区二区三区| 99精品视频免费版的特色功能| 亚洲小说区图片| 亚洲欧洲中文日韩久久av乱码| 高清免费日韩| www.蜜桃av.com| 韩国成人福利片在线播放| 国产欧美韩国高清| 91久久精品无码一区二区| 天堂一区二区在线| 国产福利视频一区| 正在播放亚洲精品| 久久精品国产亚洲aⅴ| 国产女精品视频网站免费| 在线观看免费观看在线| 日韩va亚洲va欧美va久久| 日本亚洲精品在线观看| 国产精品久久久久久久久夜色| 亚洲成av人电影| 久久精品国产v日韩v亚洲| 国产精品视频一区二区在线观看 | 鲁鲁狠狠狠7777一区二区| 秋霞网一区二区| 99久久免费精品高清特色大片| 国产精品久久91| 高潮无码精品色欲av午夜福利| 欧美粗暴jizz性欧美20| 欧美激情2020午夜免费观看| 久久精品一级片| 国产精品入口| 国产精品美女在线观看| 国产精品欧美激情在线| 国产99精品国产| 精品在线观看一区二区| 加勒比一区二区三区在线| 日本一区二区动态图| 亚洲国产一区二区精品视频 | 中文字幕久热精品在线视频| 亚洲色图欧美色| 1024精品久久久久久久久| 欧美二区在线播放| 日韩人妻精品中文字幕| 日韩制服丝袜先锋影音| 91精品视频网站| 欧美 日韩 人妻 高清 中文| 久久蜜桃av一区二区天堂| 在线观看亚洲视频啊啊啊啊| 第一中文字幕在线| 日本韩国精品在线| 日本高清免费在线视频| 亚洲高清极品| 久久久精品欧美| 精品国产乱码一区二区| 蜜芽一区二区三区| 国产呦系列欧美呦日韩呦| 国产高清在线观看| 亚洲永久精品大片| 久久久久国产精品熟女影院| 成人污污www网站免费丝瓜| 亚洲精品动漫100p| 永久av免费网站| 国产精品视频| 亚洲最大成人免费视频| 国产三级视频在线| 亚洲第一av色| 五月天六月丁香| 最新国产一区| 欧美激情一区二区三区在线视频观看| 青青草激情视频| 视频在线观看91| 波多野结衣一区二区三区在线观看 | 中文字幕一区二区三区久久网站| 日韩在线免费视频| 亚洲国产精一区二区三区性色| 尹人成人综合网| 国产一区二区在线免费| 欧美日韩影视| 亚洲综合精品自拍| 日韩中文字幕a| 久草精品在线| 97视频免费在线观看| 99免费在线视频| 国产精品免费视频观看| 日本中文字幕片| 久久影视三级福利片| 欧美剧在线观看| 国产精品人妻一区二区三区| 国产喷白浆一区二区三区| 欧美不卡在线播放| 成人av影音| 欧美福利视频在线| 国产女主播福利| 中文字幕欧美一| 国产免费中文字幕| 久久大综合网| 国产精品亚洲视频在线观看| 精品视频三区| 日本大香伊一区二区三区| 极品白嫩丰满美女无套| 亚洲承认在线| 国内成+人亚洲| 91九色porn在线资源| 精品国产电影一区二区| 国产亚洲自拍av| 成人av在线电影| 青娱乐自拍偷拍| 天堂成人娱乐在线视频免费播放网站| 自拍偷拍亚洲区| 国产成人精品一区二区色戒| 中文子幕无线码一区tr| 韩国视频一区二区三区| 日韩免费久久| 成人激情综合网| 国产不卡在线| 欧美成人一区二区三区片免费 | 日本女人黄色片| 中文字幕免费一区二区| 亚洲专区国产精品| 久久不射影院| 日韩成人av网| 精品一区二区无码| 欧美国产日韩一二三区| 九九热99视频| 欧美日韩网站| 精品欧美日韩| 天天免费亚洲黑人免费| 这里只有精品在线播放| 国产精品色综合| 亚洲成人免费在线观看| 中文字幕人妻一区二区| 蜜臀av国产精品久久久久| 综合操久久久| 狠狠一区二区三区| 国产精品免费在线免费| 成人国产免费电影| 亚洲精品xxxx| 一个人看的www日本高清视频| 久久久久久久综合色一本| www.夜夜爽| 在线欧美亚洲| 亚洲免费精品视频| jizz国产精品| 国产精品久久91| 免费在线看污片| 亚洲丝袜在线视频| 国产手机精品视频| 色综合天天综合网天天看片| 免费在线观看a级片| a美女胸又www黄视频久久| 亚洲少妇第一页| 国产精品啊啊啊| 午夜欧美一区二区三区免费观看| 日本资源在线| 欧美日韩免费高清一区色橹橹| 受虐m奴xxx在线观看| 国产一区欧美二区| 国产极品美女高潮无套久久久| 欧美国产不卡| 成人激情在线观看| 欧美大片高清| 午夜伦理精品一区| 超碰免费97在线观看| 精品国产一区二区精华| 91免费视频播放| 黑人巨大精品欧美一区免费视频 | 韩剧1988免费观看全集| 国产粉嫩一区二区三区在线观看| 欧美综合视频在线观看| 国产第一页在线播放| 国产精品欧美一区二区三区| 欧美一级片黄色| 国产成人免费在线观看不卡| www日韩在线观看| 一区二区日本视频| 亚洲 欧美 综合 另类 中字| 99久久精品费精品国产| 欧美一区1区三区3区公司| 亚洲一区二区三区在线免费| 成人看片人aa| 亚洲狼人在线| 国产精品看片资源| 成人教育av| 18久久久久久| av小说在线播放| 欧美成人一区二区三区电影| 欧美日本一道| 日韩中文字幕欧美| a√在线中文网新版址在线| 亚洲欧美日韩国产中文| 亚洲AV成人无码一二三区在线| 狠狠躁夜夜躁久久躁别揉| 久久亚洲av午夜福利精品一区| 不卡区在线中文字幕| 日本黄色大片在线观看| 精品一区二区三区在线观看国产 | 久久精品一区| koreanbj精品视频一区| 国产日韩视频| 国内性生活视频| 久久国产欧美| 国模吧无码一区二区三区| 性色av一区二区怡红| 成年人免费在线播放| 亚洲在线观看| 丝袜老师办公室里做好紧好爽| 国产精品久久久久久久免费观看| 高清视频一区二区三区| 粉嫩av一区二区| 黄色99视频| 天堂成人娱乐在线视频免费播放网站 | 国产精品18久久久久| 97超碰人人看| 国产成人aaa| 欧美图片自拍偷拍| 99久久伊人精品| 亚欧洲乱码视频| 欧美经典一区二区| www.5588.com毛片| 亚洲夂夂婷婷色拍ww47| 久久99精品波多结衣一区| 色综合一区二区| 亚洲熟女乱色一区二区三区久久久| 黄网站色欧美视频| 青青草av在线播放| 欧洲在线/亚洲| 一级黄色大片免费| 日韩亚洲欧美中文三级| 手机av在线免费观看| 亚洲欧美中文日韩v在线观看| 欧美一级做性受免费大片免费| 欧美色中文字幕| 一区二区三区亚洲视频| 日韩一区二区在线观看视频 | 久久久久人妻一区精品色欧美| 国产亚洲美州欧州综合国| 色欲狠狠躁天天躁无码中文字幕 | 久久99精品久久只有精品| 国产永久免费网站| 成人小视频在线| 娇妻被老王脔到高潮失禁视频| 国产亚洲欧美日韩在线一区| 日韩三级久久久| 亚洲影视在线播放| 神马久久久久久久| 欧美电影免费提供在线观看| 日本五码在线| 久久电影一区二区| av电影一区| 亚洲综合第一页| 国产欧美高清视频在线| 高清无码一区二区在线观看吞精| 99久久夜色精品国产亚洲1000部| 手机看片福利永久国产日韩| 中文字幕乱码亚洲无线精品一区| 六月婷婷激情网| 午夜在线视频观看日韩17c| www.久久久久久久久久久| 91网站最新网址| 免费在线观看日韩| 欧美日韩免费观看一区三区| 亚洲色偷精品一区二区三区| 另类美女黄大片| 亚洲成人av观看| 国产亚洲一区在线播放| 婷婷丁香综合| 我看黄色一级片| www..com久久爱| 18岁成人毛片| 欧美视频在线一区二区三区| 五月婷中文字幕| 欧美国产日产韩国视频| 久久三级毛片| 日本一区二区高清视频| 亚洲精品影视| www.欧美com| 亚洲欧洲中文日韩久久av乱码| 久久这里只有精品免费| 在线播放视频一区| avtt亚洲| 国产精品入口福利| 精品一区欧美| 97超碰青青草| av中文字幕不卡| 国产真实乱偷精品视频| 欧美成人在线直播| 在线欧美三级| 114国产精品久久免费观看| 日韩影院二区| 手机在线成人免费视频| 久久久777精品电影网影网 | 亚洲九九视频| 国产美女18xxxx免费视频| 欧美激情一区二区三区全黄| 亚洲 欧美 日韩 综合| 精品久久久影院| 俺来俺也去www色在线观看| 91蜜桃网站免费观看| 一区二区蜜桃| 俄罗斯女人裸体性做爰| 亚洲激情图片一区| 亚洲黄色小说网址| 欧美国产日本在线| 国产欧美三级电影| 欧美在线一区视频| heyzo一本久久综合| 男人的天堂一区二区| 精品一区二区三区四区在线| 欧美xoxoxo| 亚洲a∨一区二区三区| 精品一区二区三区久久| 成年人二级毛片| 日韩欧美国产三级电影视频| 女子免费在线观看视频www| 99久久久精品免费观看国产| 亚洲性感美女99在线| avtt香蕉久久| 在线精品视频免费播放| 91社区在线观看| 亚洲影院色无极综合| 亚洲精品视频啊美女在线直播| 久久精品一卡二卡| 亚洲影院理伦片| 撸视在线观看免费视频| 国产精品九九九| 欧美在线亚洲| 182在线视频| 欧美又粗又大又爽| 高h视频在线观看| 国产富婆一区二区三区 | 男人的天堂99| 日本一区二区三区免费乱视频| 日韩精品乱码久久久久久| 日韩经典一区二区三区| 日本.亚洲电影| 国产免费xxx| 久久综合色之久久综合| ,一级淫片a看免费| 性色av一区二区三区| 成人毛片在线| 日本一区二区在线观看视频| 91黄色免费看| 亚洲无线看天堂av| 区一区二区三区中文字幕| 久久9热精品视频| 欧美一二三区视频| 日韩在线免费av| 欧美成人专区| 日本网站在线看| 欧美视频在线观看免费| 麻豆网在线观看| 久久国产精品亚洲va麻豆| 精品一区二区在线看| 亚洲熟妇无码乱子av电影| 欧美精品在线播放| 精品国产乱码久久久久久1区2匹| 欧美成人精品欧美一级乱| 亚洲男同性视频| 成年午夜在线| 美女三级99| 国产成a人无v码亚洲福利| 7799精品视频天天看|