精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻者名單長達兩頁

人工智能 新聞
雖然目前的 LLM 在 HLE 上的準確度非常低,但最近的歷史表明,這個基準很快就會飽和 —— 前沿模型的性能可在短時間內從接近零到接近完美。

隨著 AI 大模型在一個又一個的任務上達到乃至超越人類水平,人類文明似乎已經進入了與 AI 共生的時代。 

為了跟蹤 AI 的發展進度,適當的基準必不可少。但現在,由于 AI 發展的速度實在太快,已有的基準已經開始不夠用了。比如在常用的基準 MMLU 上,當今前沿的 LLM 已經能達到超過 90% 的準確度了!這就限制了對前沿 LLM 能力的精確度量能力。

基于此現狀,Center for AI Safety(AI 安全中心)與 Scale AI 聯合打造一個名字相當吸引眼球的新基準:Humanity's Last Exam,即「人類的最后考試」,簡稱 HLE

  • 論文標題:Humanity’s Last Exam
  • 論文地址:https://arxiv.org/pdf/2501.14249
  • 項目地址:https://lastexam.ai

從名字也能看出來,其背后必然有一個雄心勃勃的團隊。據介紹,HLE 是一個「位于人類知識前沿的多模態基準」,其設計目標是成為「同類中具有廣泛學科覆蓋范圍的終極封閉式學術基準。」

現目前,HLE 已包含 3000 個問題,涉及上百門學科,包括數學、人文科學和自然科學。其中的問題主要由適合自動評估的多項選擇題和簡單問答題構成;每個問題都有一個已知的解,該解非常明確且易于驗證,但無法通過互聯網檢索快速回答。

為了構建 HLE 基準,Center for AI Safety 與 Scale AI 向全球不同學科的專家尋求了幫助,最終讓該論文有了一份長達兩頁、近千人的數據集貢獻者名單:

該團隊也使用該基準測試了一些 SOTA 模型,結果如下。很顯然,HLE 相當難。

數據集

HLE 包含 3000 多個高難度問題,涉及一百多個科目,概況見下圖 3 。

下面展示了一些問題示例:

雖然這些問題已公開發布,但該團隊也表示還維護著一個私有的測試集,其中包含一些用來評估模型過擬合現象的問題。

收集數據集

該團隊在技術報告中分享了 HLE 基準數據集的收集過程:「HLE 是一項全球合作的成果,其中的問題來自 50 個國家 / 地區的 500 多個機構的近 1000 名學科專家貢獻者 —— 主要由教授、研究人員和研究生學位持有者組成。」

問題風格:HLE 包含兩種問題格式:精確匹配問題(模型提供確切的字符串作為輸出)和多項選擇題(模型從五個或更多答案選項中選擇一個)。HLE 是一個多模態基準,其中 10% 的問題需要同時理解文本和圖像。80% 的問題是精確匹配型問題,其余的是多項選擇題。

提交格式:為確保問題的質量和完整性,該團隊設定了嚴格的提交標準。

  • 問題應該準確、明確、可解且不可搜索,確保模型不能依賴記憶或簡單的檢索方法。
  • 所有提交內容必須是原創的,或者是基于已發表信息的非平凡合成版本,但也會接受未發表的研究。
  • 問題通常需要研究生水平的專業知識或高度特定主題的測試知識(例如,精確的歷史細節、瑣事、當地習俗),并且有領域專家接受的具體、明確的答案。
  • 當 LLM 能提供正確答案但推理有誤時,希望作者能修改問題參數,例如答案選項的數量,以阻止假正例。
  • 要求明晰的英語和精確的技術術語,并在必要時支持 LATEX 標注。
  • 答案要簡短,并且對于精確匹配的問題,答案要容易驗證,以支持自動評分。
  • 禁止開放式問題、主觀解釋題和與大規模殺傷性武器有關的內容。
  • 每個問題都應附有詳細的解答以驗證準確性。

獎金池:為了吸引高質量的投稿,該團隊還設立了一個獎金池,其中包含 50 萬美元。對于前 50 個問題,每個獎金 5000 美元,接下來的 500 個問題每個獎金 500 美元,具體由組織者決定。正是由于這種這種激勵結構,加上任何被 HLE 接收的問題的作者都有機會成為論文合著者,吸引了有資歷專家的參與,尤其是那些在其領域內擁有高級學位或豐富技術經驗的專家。

收集完成后,該團隊還組織人手對收集到的問題進行了審核,下圖展示了其審核流程:

當前 SOTA 模型在該基準上表現如何?

有了基準,自然得對當前的模型進行一番評估。該團隊評估了 SOTA 模型在 HLE 上的性能表現,并分析了它們在不同問題類型和領域上的能力。

這些模型表現如何呢?如下表所示,整體表現可以總結為一個字:差。

從 GPT-4o 到 DeepSeek-R1,當前最佳的模型的準確度表現都沒能超過 10%。目前官網也已經更新了 o3-mini 的成績,其中 high 版本能達到 13%

OpenAI CEO Sam Altman 還表示 o3-mini-high 如果使用 Deep Research,則其在 HLE 上的準確度更能倍增至 26.6%

該團隊表示:「如此低分的部分原因是設計使然 —— 數據集收集過程試圖過濾掉現有模型可以正確回答的問題。然而,我們在評估時注意到,這些模型的準確度也都不是零。這是由于模型推理中固有的噪聲 —— 模型可能會不一致地猜對正確答案,或者猜中多項選擇題答案的概率低于隨機。」因此,這些模型在該數據集上的真正能力底線仍然是未知的,接近零準確度的微小變化并不能有力地表明進展。

鑒于這些模型在 HLE 上表現不佳,該團隊表示應該在考慮到不確定性的前提下校準模型,而不是自信地提供錯誤答案,畢竟模型存在虛構/幻覺現象。為了測量校準誤差(Calibration Error),該團隊讓模型提供答案的同時還提供置信度(范圍是 0% 到 100%)。經過良好校準的模型聲明的置信度應該與其實際準確度相匹配 —— 例如,在聲稱置信度為 50% 的問題上實現 50% 的準確度。

而表 1 的結果表明所有模型的校準都很差。在 HLE 上,模型經常以高置信度提供錯誤答案,這表明這些模型無法分辨這些問題何時超出其能力范圍。

token 數量:具有推理能力的模型需要更多的推理時間計算。為了在評估中闡明這一點,該團隊分析了各個模型使用的完成 token 的數量。如圖 5 所示,所有推理模型都需要生成比非推理模型多得多的 token 才能提高性能。該團隊指出:「未來的模型不僅應該提升準確度,還應該努力實現計算優化。

討論

該團隊表示,雖然目前的 LLM 在 HLE 上的準確度非常低,但最近的歷史表明,這個基準很快就會飽和 —— 前沿模型的性能可在短時間內從接近零到接近完美。

他們預計,到 2025 年底,模型在 HLE 上的準確度就可能超過 50%。

如果模型能在 HLE 上取得高準確度表現,則說明其在封閉式、可驗證的問題和前沿的科學知識上具備了專家級的表現,但僅靠這個基準,并不能表明模型已經具備自主研究能力或者已經是所謂的「通用人工智能」。HLE 測試的是結構化的學術問題,而不是開放式研究或創造性解決問題的能力,因此這是一個重點關注技術知識和推理的測量指標。

該團隊寫到:「HLE 可能是我們需要對模型進行的最后的學術考試,但它遠非 AI 的最后一個基準。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-03-05 10:21:04

DeepSeekLVLM

2025-07-18 09:33:26

2025-01-24 15:03:27

2025-04-29 09:06:00

2025-03-27 09:34:42

2025-07-10 08:50:00

2025-02-19 08:33:18

2025-03-05 08:40:00

2025-05-29 09:07:37

2025-01-26 08:40:00

AI模型預測

2025-02-06 10:18:45

2025-03-20 10:20:16

2025-01-26 12:08:03

2025-03-10 08:10:00

AI研究安全
點贊
收藏

51CTO技術棧公眾號

中文一区二区在线观看| 欧美激情四色| 欧美日韩中国免费专区在线看| 精品一区在线播放| 懂色av中文字幕| 久久影院一区| 精品1区2区在线观看| 九色自拍视频在线观看| freemovies性欧美| 精品在线一区二区| 68精品国产免费久久久久久婷婷| 色撸撸在线视频| 成人在线视频你懂的| 色94色欧美sute亚洲线路二| 成人短视频在线看| 亚洲色图欧美视频| 国产一区二区三区在线观看免费 | 水蜜桃av无码| **国产精品| 亚洲成人一区在线| 亚洲国产精品一区二区第四页av| 成人毛片在线精品国产| 美女免费视频一区| 欧美中在线观看| 欧美成人国产精品高潮| 日本不卡电影| 日韩精品在线免费观看| 日本人dh亚洲人ⅹxx| 浪潮色综合久久天堂| 亚洲无线码一区二区三区| 色综合久久久久久久久五月| 日本高清视频网站| 国模无码大尺度一区二区三区| 欧美孕妇与黑人孕交| 九九视频在线观看| 国产精品99久久精品| 亚洲人成伊人成综合网久久久| 四虎永久免费观看| 电影中文字幕一区二区| 91福利社在线观看| 亚洲熟妇无码一区二区三区| av网站在线看| 中文字幕国产一区| 日韩久久不卡| 精品乱码一区二区三四区视频| 国产成人av电影| 91精品中国老女人| 91 中文字幕| 青草av.久久免费一区| 欧美中文字幕精品| 7799精品视频天天看| 中文精品视频| 97国产精品久久| 日韩欧美国产亚洲| 亚洲日本黄色| 午夜精品一区二区三区在线视| 久久亚洲AV无码| 影音国产精品| 欧美激情国产日韩精品一区18| 超碰在线国产97| 欧美激情视频一区二区三区在线播放 | 人妻一区二区三区| 不卡av电影在线播放| 国产精品一区二区三区四区五区 | 精品国产一区三区| www.综合| 色狠狠av一区二区三区| 日韩在线第三页| 久久久久久久性潮| 911精品国产一区二区在线| 色噜噜狠狠一区二区| 日韩有码欧美| 日韩女优毛片在线| 亚洲精品乱码久久| 西野翔中文久久精品国产| 亚洲欧美国内爽妇网| x88av在线| 9999国产精品| 久久久久久久激情视频| 国产污污视频在线观看| 日韩成人伦理电影在线观看| 国产精品视频免费在线观看| 99热精品在线播放| aaa欧美日韩| 日韩精品第一页| 爆操欧美美女| 午夜精品久久久久影视| 丰满少妇在线观看| 国产精品一区免费在线 | 欧美欧美全黄| 久久久久久成人| caoporn国产| 国产一区二区精品久久| 好看的日韩精品视频在线| 国产三级在线免费观看| 亚洲精品美国一| 日本精品久久久久中文字幕| 四虎精品永久免费| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 成人黄色大片在线观看 | theav精尽人亡av| 日韩精品诱惑一区?区三区| 欧美成人久久久| 久久青青草原亚洲av无码麻豆| 黑人巨大精品欧美一区| 精品一区二区三区视频日产| 麻豆传媒在线完整视频| 欧美日韩中文在线| 午夜大片在线观看| 免费一区二区三区视频导航| 欧美成人精品一区二区三区| jizz国产在线观看| 丰满白嫩尤物一区二区| 亚洲精品一区二区三区蜜桃久| 大黄网站在线观看| 欧美人牲a欧美精品| 黄色正能量网站| 欧美涩涩视频| 成人欧美一区二区三区在线| 国产在线自天天| 亚洲1区2区3区视频| 天堂中文av在线| 国产一区二区精品久| 久久久久久久久网站| 91亚洲精品国偷拍自产在线观看 | 午夜影院在线播放| 欧美一区二区三区思思人| 成人小视频免费看| 国产精品日韩| 国产欧美欧洲| 女同一区二区免费aⅴ| 69堂成人精品免费视频| 精品人体无码一区二区三区| 久久精品亚洲一区二区| 极品尤物一区二区三区| 性xxxxfjsxxxxx欧美| 欧美日韩精品系列| 欧美三级视频网站| 亚洲欧美久久久| 国产综合 伊人色| 第九色区av在线| 在线视频中文字幕一区二区| 免费观看一级一片| 一本久道久久综合婷婷鲸鱼| 国产精品一区二区免费看| 性xxxxfjsxxxxx欧美| 欧美一级爆毛片| 国内偷拍精品视频| 国产久卡久卡久卡久卡视频精品| 在线观看免费91| 日本国产一区| 久久久精品影院| 精品人妻一区二区三区蜜桃| 亚洲视频一区二区在线| xxxx在线免费观看| 亚洲综合专区| av电影成人| av中文字幕在线观看第一页| 亚洲国产精品人人爽夜夜爽| 日本网站在线播放| 91啪九色porn原创视频在线观看| 男人操女人逼免费视频| 亚洲精品一级二级三级| 日韩男女性生活视频| www.国产精品.com| 91精品中文字幕一区二区三区| av成人免费网站| www.亚洲激情.com| 国产1区2区在线| 日韩电影二区| 亚洲在线免费看| 成年人视频免费在线播放| 日韩精品在线视频美女| 自拍偷拍第八页| 亚洲免费在线电影| 污污免费在线观看| 久久亚洲不卡| 伊人av成人| 99re6热只有精品免费观看| 久久久久中文字幕| 国产三级在线看| 欧美一区日本一区韩国一区| 日韩欧美不卡视频| 国产精品欧美久久久久一区二区| 中文字幕视频三区| 亚洲大片在线| 午夜精品短视频| 91精品导航| 日韩美女在线播放| 免费在线看a| 日韩av在线免费播放| 中文在线最新版天堂| 一区二区三区在线视频免费观看| 好吊一区二区三区视频| 麻豆国产91在线播放| 成人免费视频91| 日本久久综合| 国产综合18久久久久久| 日本成人在线网站| 欧洲日韩成人av| 影院在线观看全集免费观看| 亚洲色图17p| 亚洲AV无码成人片在线观看| 色乱码一区二区三区88| 美女视频黄免费| 国产欧美精品一区二区三区四区 | 中文字幕精品一区二区精品绿巨人| 久久婷婷国产综合精品青草| 欧美日韩在线中文| 999精品在线| 久久久com| 日本成人精品| 国产欧美日韩免费| 在线观看的黄色| 欧美国产日韩一区二区三区| 91电影在线播放| 国产视频欧美视频| 精品久久久久成人码免费动漫| 色嗨嗨av一区二区三区| 天天操天天射天天爽| 亚洲色图在线看| 91视频免费在观看| 91视频在线观看免费| 一级黄色大片免费看| 极品尤物av久久免费看| 手机在线免费观看毛片| 国产农村妇女毛片精品久久莱园子| 2021狠狠干| 欧美电影《睫毛膏》| 日韩免费一区二区三区| 亚洲人成网亚洲欧洲无码| 国产精品日本一区二区| 六九午夜精品视频| 国产精品va在线播放| 少妇视频一区| 欧美亚洲成人网| 草草在线视频| 性欧美暴力猛交69hd| 丁香花视频在线观看| 欧美激情免费观看| 手机在线免费看av| 久久av在线看| av网站大全在线| 九色精品免费永久在线| 91福利国产在线观看菠萝蜜| 美女黄色丝袜一区| a天堂中文在线官网在线| 久久激情五月丁香伊人| 麻豆视频在线| 欧美老女人在线视频| 超碰在线观看免费| 欧美另类69精品久久久久9999| 成人国产免费电影| 欧美成人高清视频| 午夜成年人在线免费视频| 久精品免费视频| 不卡的av影片| 91av视频在线| 成人免费直播| 国产精品免费视频久久久| 福利一区在线| 91在线网站视频| av日韩在线播放| 久久www免费人成精品| 免费欧美一区| 特级毛片在线免费观看| 欧美99久久| 秋霞无码一区二区| 久久亚洲欧美| 日韩精品视频一二三| 风流少妇一区二区| theav精尽人亡av| 国产精品视频在线看| 日韩影院一区二区| 亚洲成a人在线观看| 日韩手机在线视频| 欧美日韩亚洲国产综合| 精品国产亚洲AV| 国产丝袜一区视频在线观看| jizz在线观看中文| 欧美肥老妇视频| 中文av在线全新| 成人中文字幕+乱码+中文字幕| 白嫩白嫩国产精品| 欧美日韩在线精品一区二区三区| 爽成人777777婷婷| 国产 日韩 欧美在线| 日韩成人免费电影| 深夜视频在线观看| 久久久亚洲高清| 久久r这里只有精品| 狠狠躁夜夜躁人人爽天天天天97| 伊人网视频在线| 精品国产乱码久久久久久夜甘婷婷| 欧美另类自拍| 欧美成人第一页| 天堂久久午夜av| 国产精品一区在线播放| 欧美中文一区二区| 欧美精品一区二区三区三州| 另类欧美日韩国产在线| 黄色av网址在线观看| 中文字幕一区二区三区精华液| 国产无遮挡又黄又爽在线观看 | 国产乱子伦农村叉叉叉| 精品一区中文字幕| 亚洲蜜桃精久久久久久久久久久久 | 成人性色av| 久久在线免费| 国产白丝袜美女久久久久| 精品无人码麻豆乱码1区2区 | 国产成人短视频| 大伊香蕉精品在线品播放| 性欧美.com| 亚洲影视综合| 黑森林av导航| 亚洲视频小说图片| 超碰在线免费97| 日韩精品欧美激情| 日韩激情美女| 成人黄色免费片| 欧美色婷婷久久99精品红桃| 男人日女人下面视频| 国产成人自拍网| 神马久久精品综合| 欧美亚洲国产一区在线观看网站| 午夜性色福利视频| 欧美贵妇videos办公室| 白嫩亚洲一区二区三区| 色就是色欧美| 水野朝阳av一区二区三区| 男男做爰猛烈叫床爽爽小说| 亚洲综合视频网| aaaa一级片| 欧美成人在线网站| av国产精品| 免费成人进口网站| 久久99在线观看| 精品在线观看一区| 欧美乱妇23p| 日本在线天堂| 国产日韩欧美91| 欧美中文一区二区| 五月婷婷丁香色| 中文一区二区完整视频在线观看 | 精品国一区二区三区| av中文字幕在线播放| 亚洲永久免费观看| 欧美成人一品| 岛国精品一区二区三区| 亚洲第一久久影院| 熟妇高潮一区二区高潮| 91豆花精品一区| 蜜桃一区二区三区| 自拍偷拍 国产| 国产精品成人在线观看| 国产女人爽到高潮a毛片| 成年人精品视频| 136导航精品福利| 欧美一级免费播放| 久久影视一区二区| 免费视频久久久| 日韩中文第一页| 日韩三级av高清片| 免费毛片网站在线观看| 91美女福利视频| 最新国产中文字幕| 久久成人亚洲精品| 第四色在线一区二区| 日本免费不卡一区二区| 久久久不卡影院| 艳妇乳肉豪妇荡乳av| 欧美精品在线免费播放| 欧美精品中文字幕亚洲专区| 色综合av综合无码综合网站| 国产精品免费aⅴ片在线观看| 国产免费视频一区二区三区| 久久免费视频在线| 国产亚洲一区| 五月天婷婷在线观看视频| 亚洲一区二区三区不卡国产欧美 | 午夜视频在线观看精品中文 | 在线观看的黄色| 亚洲一区二区三区涩| 成人免费毛片片v| 欧美男人亚洲天堂| 久久99国产精品久久久久久久久| 精品一区二区男人吃奶| 国产小视频精品| 亚洲网友自拍偷拍| yiren22综合网成人| julia一区二区中文久久94| 久久国产精品久久w女人spa| 91视频综合网| 亚洲情综合五月天| 日韩中文字幕无砖| 无码精品国产一区二区三区免费| 亚洲女女做受ⅹxx高潮| 欧美新色视频| av成人综合网|