精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型追逐星辰大海,GPT和Gemini國際天文奧賽奪金

人工智能 新聞
就在最近,一篇全新發(fā)布的論文中,將國際天文學和天體物理學奧林匹克競賽 (IOAA)?作為基準測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學中取得奧賽金牌成績。

人工智能真是日新月異。早上看到網(wǎng)友的評論:我們已經(jīng) 0 天沒有吸引注意的 AI 領域新突破了。

記得三個月前,OpenAI 官宣了他們的推理模型在國際數(shù)學奧林匹克(IMO)競賽中獲得了金牌。

現(xiàn)在看,大模型不僅僅在數(shù)學領域具有很強的推理泛化能力,也在很多其他科學研究領域中出彩。

值得關注的是,目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。

就在最近,一篇全新發(fā)布的論文中,將國際天文學和天體物理學奧林匹克競賽 (IOAA) 作為基準測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉發(fā)了這項工作,激動的連 GPT 的名字都打錯了:

終有一天,人類走向星辰大海的那一刻,也會有 AI 大模型的痕跡。

  • 論文標題:Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
  • 論文鏈接:https://arxiv.org/abs/2510.05016

為什么選擇 IOAA

大型語言模型的出現(xiàn)為人工智能在科學研究,特別是天文學和天體物理學領域帶來了新的可能性。雖然傳統(tǒng)的天文學機器學習方法在模式識別任務(如目標分類和異常檢測)方面表現(xiàn)出色,但它們往往缺乏解決復雜科學問題所需的通用性和復雜推理能力。

當前用于評估天文學領域 LLM 的基準,如 AstroBench 和 Astro-QA,主要側重于簡單的問答形式,通過多項選擇或簡答題來測試天文學知識。這些評估未能評估真實天文學研究中必不可少的復雜推理、創(chuàng)造性問題解決和擴展推導能力。本研究通過引入一個更嚴格、更全面的評估框架來解決這一關鍵差距。

研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽(IOAA)試題作為主要基準。這一選擇是基于三個關鍵因素:

首先,不同于 AstroMLab 的 AstroBench  和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準,IOAA 試題具備更高的生態(tài)有效性,因為其考查的是實際天文研究中所需的復雜推理、創(chuàng)新性問題求解以及多步推導能力。

其次,根據(jù)官方大綱 ,IOAA 題目覆蓋了廣泛的天文主題,包括宇宙學、球面三角、恒星天體物理、天體力學、光度測量以及觀測儀器學,從而保證了評測的全面性。

最后,IOAA 將理論物理、觀測約束以及真實天文數(shù)據(jù)與數(shù)學推導結合在一起,提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式,可用于檢驗 LLM 在科學問題求解方面的綜合能力。

評估重點關注 IOAA 的兩個組成部分:理論問題(共 49 個)和數(shù)據(jù)分析問題(共 8 個)。理論問題分為第一類(幾何 / 空間,需要天球幾何和球面三角學)和第二類(物理 / 數(shù)學,側重天體物理計算,無需幾何可視化)。由于 LLM 的數(shù)字性質,觀測部分被排除在外。

金牌結果

不同難度類別下,LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分數(shù)均為相對于總分的標準化百分比。

理論考試

如表所示,GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出,比分領先其他模型 7~25 個百分點。具體來說,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。

盡管表現(xiàn)整體強勢,但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示,這種看似反常的波動主要由三方面因素造成:

1. 每個難度等級的問題數(shù)量較少,導致模型表現(xiàn)的自然波動。簡單題僅有 10 題,中等難度有 11 題,總分分別約為 185 分和 151 分,而總分為 1200 分,因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。

2. GPT-5 在 2024 年試題中出現(xiàn)了多次關鍵性錯誤,其中很大一部分集中在需要幾何推理與空間想象的問題(見第 3.2 節(jié))。

3. GPT-5 偶爾會在天體物理概念題上出錯。例如,在 2024 年試題的第 9 題(歸為簡單題)中,GPT-5 因一次概念性錯誤疊加一次計算錯誤丟失了 18 分,而這相當于簡單題總分的近 10%。

其他模型也展現(xiàn)出一定競爭力:OpenAI o3 總體得分為 77.5%,并穩(wěn)定領先 Claude 系列 13~17 個百分點,其中 Claude Opus 4.1 得分為 64.7%,Claude Sonnet 4 為 60.6%。此外,它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準上表現(xiàn)接近甚至亮眼,我們的評測結果揭示了在復雜問題求解上仍存在顯著能力差異。該結果提示:要真正評估 LLM 在天文學領域的科研潛力,必須超越知識回憶型任務,構建更全面的能力評估框架。

數(shù)據(jù)分析考試

雖然 LLM 在理論考試中接近頂尖人類水平,但數(shù)據(jù)分析考試更能揭示其細粒度的能力結構與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分,反而高于其理論考試表現(xiàn)(84.2%)。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10~15 個百分點。

這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點。GPT-5 擁有更強的多模態(tài)理解能力,在圖像解析和繪圖推理錯誤率方面顯著更低,這直接支撐了其優(yōu)勢表現(xiàn)。

為了進一步推動 LLM 在天體物理領域向科研級智能體邁進,我們的結果強調:除了整體性評估外,還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準來全面檢驗模型在真實科研流程中的問題求解能力。

對比人類成績

為更好地理解 LLM 的表現(xiàn),我們將其得分與 IOAA 的獎牌評定標準下的人類參賽者成績進行比較。具體而言,獎牌依據(jù)與中位數(shù)成績的比值來頒發(fā)(中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計算):若得分在中位數(shù)的 100%–130% 之間為銅牌,130%–160% 為銀牌,高于 160% 則為金牌。由于我們的評測范圍不包括觀測(observational)試題,因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計算了對應的獎牌門檻。

大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4,在 2023 年考試中僅獲銀牌。尤其值得注意的是,GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當屆 IOAA 的最佳學生,而 Gemini 2.5 Pro 在 2022 與 2023 年也達到相同水平。

LLM 與人類參賽者在 IOAA 理論考試(2022–2025)中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試(2022–2025)中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題,類別 II 為物理 / 數(shù)學類問題。所有分數(shù)均以百分比形式表示。

錯誤分析

在理論考試中,大型語言模型在第二類(物理 / 數(shù)學)問題上的表現(xiàn)(67-91% 的準確率)明顯優(yōu)于第一類(幾何 / 空間)問題(49-78% 的準確率),性能差異為 15-26 個百分點。

最普遍的錯誤類型是概念性錯誤,反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯誤來源,模型在球面三角學、計時系統(tǒng)和 3D 可視化方面尤其吃力。

在數(shù)據(jù)分析考試中,錯誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀,這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進行大量計算,計算錯誤比理論考試中更常見。

按錯誤類型劃分的丟分分布:(a)IOAA 理論考試 2022–2025;(b)IOAA 數(shù)據(jù)分析考試 2022–2025。

更多信息,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-13 09:13:00

2021-11-10 14:48:21

深信服網(wǎng)絡安全數(shù)據(jù)

2025-10-27 08:35:00

2025-07-17 10:47:33

2025-11-19 08:10:51

2021-03-16 14:16:03

模型人工智能深度學習

2023-12-09 14:30:50

2024-05-20 15:40:00

AI數(shù)學

2023-12-24 13:56:37

2024-11-12 09:14:52

2022-11-07 10:25:12

華為系統(tǒng)

2018-08-27 14:52:27

云桌面銳捷網(wǎng)絡

2021-12-21 14:24:47

SUSESAP

2025-08-08 04:11:00

GPT-OSS大模型算法

2025-04-07 09:52:00

AI機器人智能

2025-07-31 06:45:00

大模型LLMOpenAI

2025-07-21 09:00:00

2023-12-20 15:32:02

模型數(shù)據(jù)

2025-07-23 10:01:56

點贊
收藏

51CTO技術棧公眾號

李丽珍裸体午夜理伦片| 亚洲v国产v在线观看| 国产午夜精品无码一区二区| 五月激激激综合网色播| 在线区一区二视频| 亚洲精品少妇一区二区| 日本一级在线观看| 精品亚洲成a人在线观看| 久久久久久久久91| 国产白丝一区二区三区| 久久99偷拍| 欧美巨大另类极品videosbest | 91精品国产综合久久精品app| 人人妻人人澡人人爽欧美一区双| 黄色av网址在线免费观看| 免费观看a级片| 日本国产一区| 富二代精品短视频| 日本丰满少妇黄大片在线观看| 手机亚洲第一页| 国产电影一区二区三区| 在线成人av| 亚洲国产欧美久久| 爱情岛论坛亚洲自拍| 成人开心激情| 精品久久久久久久久久久久久久| 久久久久久久久久久久久国产| 国产毛片在线看| av综合在线播放| 亚洲va久久久噜噜噜| 亚洲精品一区二区二区| 国产亚洲精品v| 欧美激情久久久久久| 污污的视频在线免费观看| 欧美少妇xxxx| 国产一区二区三区欧美| free性中国hd国语露脸| 红杏一区二区三区| 欧美videofree性高清杂交| 又色又爽又黄视频| 综合久草视频| 91精品尤物| 国产精品卡一卡二卡三| 五月天婷亚洲天综合网鲁鲁鲁| 你懂的视频在线| 91麻豆国产在线观看| 精品免费国产| 天堂在线视频观看| 成人黄色国产精品网站大全在线免费观看 | 亚洲成av在线| 在线免费不卡电影| 狠狠热免费视频| se69色成人网wwwsex| 欧美在线影院一区二区| 天美星空大象mv在线观看视频| 午夜在线激情影院| 亚洲综合男人的天堂| 亚洲啊啊啊啊啊| 好吊日av在线| 欧美日韩免费区域视频在线观看| 欧美一级在线看| 不卡av播放| 欧美色精品在线视频| 欧美成人乱码一二三四区免费| 2019中文亚洲字幕| 日韩欧美一二区| 日韩少妇一区二区| 国产99精品| 日韩有码视频在线| 深夜福利影院在线观看| 在线视频观看日韩| 国产成人中文字幕| 国产免费久久久| 成人黄色综合网站| 日韩欧美一区二区三区四区五区 | 欧美国产精品一区二区三区| 亚洲国内在线| 男人天堂亚洲| 91福利区一区二区三区| 五月花丁香婷婷| www.国产精品一区| 亚洲少妇中文在线| 亚洲欧美小视频| 一本久久知道综合久久| 国产男人精品视频| 亚洲高清在线观看视频| 久久久亚洲午夜电影| 一道本在线观看视频| heyzo高清中文字幕在线| 欧美亚洲综合久久| 杨幂一区二区国产精品| 久久av资源| 欧美老女人性生活| 波多野结衣一区二区在线| 国产精品正在播放| 欧洲久久久久久| xxxcom在线观看| 欧美性受xxxx黑人xyx| 日本少妇xxxx软件| 成人情趣视频网站| 久久人人爽人人爽人人片av高清| 国产成人精品一区二区色戒| 不卡一区二区中文字幕| 亚洲砖区区免费| 国产高清中文字幕在线| 91精品国产欧美一区二区成人| 在线观看日韩精品视频| 亚洲一区二区三区无吗| 国产成人涩涩涩视频在线观看| 亚洲黄色精品视频| 中文字幕av免费专区久久| 欧洲精品一区二区三区久久| 日本亚洲欧洲无免费码在线| 亚洲精品综合久久中文字幕| 欧美成人精品一区二区免费看片| 日韩在线播放一区二区| 韩国精品一区二区三区六区色诱| 麻豆传媒视频在线观看免费| 日韩欧美国产网站| 白嫩情侣偷拍呻吟刺激| 欧美69wwwcom| 国产欧美韩国高清| 国内av一区二区三区| 性欧美疯狂xxxxbbbb| 中文字幕12页| 日本成人小视频| 国产精品福利在线观看网址| 秋霞av在线| 亚洲va欧美va天堂v国产综合| 国产探花一区二区三区| 欧美疯狂party性派对| 国产999精品久久久| 日韩精品123| 欧美日韩国产一区在线| 国产精品久久久久久亚洲av| 亚洲一级一区| 成人3d动漫一区二区三区91| 岛国成人毛片| 日韩亚洲欧美综合| 久久激情免费视频| 成人性生交大片| www.好吊操| 99亚洲乱人伦aⅴ精品| 欧美人与物videos| 亚洲第一视频在线播放| 亚洲成人一区二区在线观看| 国产欧美视频一区| 亚洲激情av| 久久久久久精| 毛片免费看不卡网站| 亚洲欧洲在线观看| 亚洲免费视频二区| 亚洲视频一二区| 欧美一级片在线免费观看| 欧美日韩一区二区国产| 国产精品毛片一区视频| 免费高潮视频95在线观看网站| 日韩av在线免费看| 6080午夜伦理| 国产精品不卡在线观看| 999热精品视频| 亚洲欧美综合| 久久国产精品一区二区三区| 日韩大尺度黄色| 最新91在线视频| 国产按摩一区二区三区| 五月婷婷另类国产| 成人性生交大免费看| 蜜桃久久精品一区二区| 国产成人精品免费看在线播放| 天堂va欧美ⅴa亚洲va一国产| 久久久久久久久久久亚洲| 日本aaa在线观看| 欧美酷刑日本凌虐凌虐| 国产精品18p| 国产嫩草影院久久久久| 一级淫片在线观看| 99人久久精品视频最新地址| 日本免费高清一区| 国产视频一区二区在线播放| 国产69精品久久久久9| 成人综合影院| 日韩亚洲欧美成人一区| 久久久久久久久黄色| ●精品国产综合乱码久久久久| av天堂一区二区| 丝袜美腿一区二区三区| 大桥未久一区二区三区| 亚洲亚洲免费| 成人有码视频在线播放| 美女91在线看| 久久视频中文字幕| 欧美zozo| 欧美成人国产一区二区| 亚洲天堂视频在线播放| 亚洲一区在线观看网站| 亚欧精品视频一区二区三区| 国产成人在线视频播放| 黄色国产小视频| 黑人一区二区| 在线视频精品一区| 伊人成综合网yiren22| 5g影院天天爽成人免费下载| 午夜激情成人网| 久久久久亚洲精品成人网小说| yw193.com尤物在线| 亚洲韩国日本中文字幕| 999久久久久| 欧美天天综合网| 国产美女激情视频| 一区二区三区视频在线看| sm捆绑调教视频| 久久久不卡网国产精品二区| 久久久久亚洲AV成人网人人小说| 美女www一区二区| 国产精品免费成人| 亚洲欧洲另类| 菠萝蜜视频在线观看入口| 色777狠狠狠综合伊人| 欧美二区三区在线| 日本在线中文字幕一区| 国产精品xxxx| 亚洲成av人片在线观看www| 国产色视频一区| 日韩精品99| 欧美亚洲国产日韩2020| 91福利在线尤物| 久久久久久国产精品久久| av免费网站在线观看| 久久精品国产91精品亚洲| 成人亚洲性情网站www在线观看| 日韩精品一区二区三区第95| 欧美性受xxxx狂喷水| 精品对白一区国产伦| www.污视频| 日韩丝袜美女视频| 国产浮力第一页| 日韩欧美国产一区二区三区| 99久久国产热无码精品免费| 884aa四虎影成人精品一区| 一级特黄aaa| 91精品婷婷国产综合久久竹菊| 波多野结衣影片| 欧美日韩亚洲综合在线| 国产精品乱码久久久| 欧美一区二区三区啪啪| www久久久久久| 精品国产乱码久久久久久牛牛 | 精品人妻人人做人人爽| 欧美一区二区| 分分操这里只有精品| 亚洲永久免费| 亚洲欧美激情网| 久久精品国产999大香线蕉| 久久精品国产露脸对白| 国产91在线观看| 无码任你躁久久久久久老妇| 91社区在线播放| 亚洲精品国产精品国自| 亚洲三级电影网站| 国产在线拍揄自揄拍无码视频| 亚洲高清在线精品| 日韩色图在线观看| 欧美在线观看一二区| 国产精品人人妻人人爽| 精品美女在线观看| 欧美新色视频| 色777狠狠综合秋免鲁丝| 最新国产露脸在线观看| 97人人爽人人喊人人模波多| 一区二区视频免费完整版观看| 国产在线98福利播放视频| 日韩有吗在线观看| 明星裸体视频一区二区| 99久久www免费| 成人黄色大片网站| 日韩精品91亚洲二区在线观看 | 日韩欧美另类中文字幕| 精品免费二区三区三区高中清不卡| 国产欧美日韩精品一区二区免费| 日本一本草久p| 一本色道久久综合亚洲精品不| 波多结衣在线观看| 高清成人免费视频| 日韩不卡av在线| 一区二区三区丝袜| 日韩欧美一级大片| 欧美精品一区二区三区很污很色的| 男女av在线| 久久99青青精品免费观看| 欧美日韩视频免费观看| 波多野结衣精品久久| 成人vr资源| 青青青青草视频| 韩国av一区二区三区在线观看| 日批在线观看视频| 国产精品久久久久久久久免费丝袜 | 嫩草研究院在线观看| 欧美黄色片视频| a屁视频一区二区三区四区| 精品免费视频123区| 伊人青青综合网| 亚洲污视频在线观看| 91在线视频观看| 久久婷婷综合国产| 欧美精品欧美精品系列| 精品999视频| 久久全国免费视频| 欧美影院精品| 正在播放一区| 日本网站在线观看一区二区三区| 亚洲一区二区在线免费| 亚洲乱码国产乱码精品精的特点| 国产精品熟女视频| 亚洲另类欧美自拍| 免费高潮视频95在线观看网站| 91麻豆蜜桃| 一级欧洲+日本+国产| 亚洲综合av在线播放| 国产日韩欧美在线一区| www.国产com| 亚洲精品电影网| 2020国产在线| 国产成人精品一区二区三区福利| 午夜精品一区二区三区国产| www.日本一区| 亚洲国产精品黑人久久久| 国产字幕在线观看| 亚洲性视频网站| 欧美日韩五码| 色视频一区二区三区| 视频一区视频二区中文| 受虐m奴xxx在线观看| 欧美视频在线观看免费| 亚洲 欧美 激情 另类| 午夜精品蜜臀一区二区三区免费| 视频精品一区二区三区| 无码 制服 丝袜 国产 另类| 国产乱色国产精品免费视频| 亚洲欧美一区二区三区四区五区| 欧美一区二区三区爱爱| 性xxxxfjsxxxxx欧美| 999视频在线观看| 欧美精品一级| 无码成人精品区在线观看| 亚洲成av人片一区二区| 日韩av免费观影| 欧美自拍视频在线| 精品国产不卡| 色噜噜狠狠永久免费| 亚洲视频 欧洲视频| 国产成人毛毛毛片| 国语自产偷拍精品视频偷| 久久综合五月婷婷| 免费在线观看日韩视频| 欧美激情一区二区三区蜜桃视频| 一本色道久久综合精品婷婷| 久久精品国产成人精品| 99re6热只有精品免费观看| 久草视频国产在线| 91免费看`日韩一区二区| 啪啪小视频网站| 久久在线免费观看视频| 中文字幕av一区二区三区四区| 男女视频网站在线观看| 国产日韩欧美a| 国产黄频在线观看| 欧美在线一区二区三区四| 久久国产影院| 女同性αv亚洲女同志| 日韩欧美黄色动漫| 精产国品自在线www| 国产精品免费一区二区三区四区| 久久久久在线| 国产高潮国产高潮久久久91| 亚洲国产日韩精品在线| 玖玖精品在线| r级无码视频在线观看| 国产日产亚洲精品系列| 亚洲国产精品久久久久爰性色| 国产91精品久久久久久久| 久久一本综合| japanese在线观看| 欧美日韩在线不卡| 国产亚洲成av人片在线观看| 色狠狠久久av五月综合| 成人美女视频在线看| 中文在线免费看视频| 高清在线视频日韩欧美| 欧美丰满老妇| 日本一区二区三区免费看| 日本天堂在线观看| 国产精品久久精品国产| 美女爽到高潮91| 免费在线观看黄网站| 久久精品国产2020观看福利| 亚洲bt欧美bt精品777| 美女露出粉嫩尿囗让男人桶| 日本久久电影网| 僵尸再翻生在线观看免费国语|