o3完爆人類醫生，OpenAI基準直擊AGI！

2025-05-14 10:09:12

人工智能新聞

OpenAI發布新基準HealthBench ，聯手60個國家262名執業醫生，樹立新的「AGI標志性用例」。OpenAI o3碾壓Grok 3和Gemini 2.5 Pro，成功登頂。而最強AI幾乎達到了人類醫生最佳水平！

最強AI，已擊敗了人類醫生。

就在剛剛，全球60個國家，262名執業醫生共同上陣，聯手OpenAI打造出「最具AGI標志性」的AI健康系統評估標準——HealthBench。

這個基準包含了5,000個基于現實場景的健康對話，每個對話都有醫生定制的評分標準，來評估模型的響應。

論文地址：https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

在參戰的所有頂尖模型中，o3拿下了最高分，Grok 3位列第二，Gemini 2.5 Pro位列第三。

值得一提的是，在AI輔助下，醫生的診斷準確率提升了近4倍。甚至，o3、GPT-4.1回答質量超越了醫生的水平。

人類免疫學家Derya Unutmaz高度評價道，「這個關鍵的評估基準，將為AI醫生鋪平道路。我們現在正處于一場改變醫學未來，拯救數百萬人生命的革命開端」。

AGI關鍵要素，醫療AI「標尺」

OpenAI的Health AI團隊負責人Karan Singhal，在X上介紹了HealthBench的特點，并給予了極大的期待：

希望這項工作的發布，能為AI朝著改善人類健康的方向發展提供有力引導。

改善人類健康，將是通用人工智能（AGI）最具決定性的影響之一。

但要實現這一目標，必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。

盡管學術界和產業界已付出巨大努力，但現有評估體系仍存在三大局限：

未能還原真實醫療場景、

缺乏基于專家意見的嚴格驗證、

難以為前沿模型提供提升空間。

OpenAI團隊秉持AI在醫療領域評估的三大核心信念，由此設計出HealthBench：

有現實意義（Meaningful）：評分應反映真實世界影響。突破傳統考試題的局限，精準捕捉患者與臨床工作者使用模型時的復雜現實場景和工作流程。
值得信賴（Trustworthy）：評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與行業規范，為AI系統優化提供嚴謹依據。
未飽和（Unsaturated）：基準測試應推動進步。現有模型必須展現顯著改進空間，持續激勵開發者提升系統性能。

在過去一年中，OpenAI與來自26個醫學專業、在60個國家（如下所示）擁有執業經驗的262名醫師合作，共同構建了HealthBench評估體系。

HealthBench主要面向兩個群體：

1. AI研究社區：旨在推動形成統一的評估標準，激勵開發出真正有益于人類的模型

2. 醫療領域：提供高質量的證據，幫助更好地理解當前和未來AI在醫療中的應用場景與局限性

與以往那些評估維度較為單一的醫療基準不同，HealthBench支持更具實際意義的開放式評估。

新研究有很多有趣的發現，包括醫生評分基線研究等。

o3沖榜媲美人類醫生

這項健康基準HealthBench提出的主要目的，便是為當前，甚至未來頂尖LLM提供性能可參考依據。

在研究中，OpenAI團隊評估了多個模型，包括o3、Grok 3、Claude 3.7 Sonnet等，重點考察其在性能、成本和可靠性方面的表現。

性能

根據現實世界健康場景的不同子集，即「主題」，以及體現模型行為的不同維度，即「軸」，所有模型進行PK。

整體來看，o3表現最佳，超越了Claude 3.7 Sonnet和Gemini 2.5 Pro（2025年3月）。

此外，在最近幾個月里，OpenAI前沿模型在HealthBench上的表現提高了28%。

這一提升，對模型的安全性和性能來說，比GPT-4o（2024年8月）和GPT-3.5 Turbo之間的提升更大。

成本

接下來，研究團隊還在模型大小和測試時計算scaling軸上，研究了模型的成本與性能。

可以看到，4月份OpenAI發布的模型（o3，o4-mini，GPT?4.1），刷新了性能成本SOTA。

研究還觀察到，小模型在最近幾個月里，得到了顯著的改進，

盡管成本僅為GPT-4o（2024年8月版）的1/25，GPT-4.1 nano的表現仍優于后者。

比較低、中、高推理水平下的o3、o4-mini和o1模型，結果顯示測試時計算能力有所提高。

其中，o3與GPT-4o之間的性能差距（0.28）甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距（0.16）。

可靠性

在醫療領域，可靠性至關重要——一次錯誤回應可能抵消許多正確回答。

因此，OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現（worst-of-n performance）。

也就是說，在給定示例的n個響應中，最差的得分是多少？

結果發現，o3模型在16個樣本時的最差分數超過GPT-4o的兩倍，展現出更強的穩健性和下限表現。

HealthBench系列

此外，OpenAI還推出了HealthBench系列的兩個新成員：HealthBench Hard和HealthBench Consensus。

HealthBench Hard專為更高難度場景設計，問題更具挑戰性；
HealthBench Consensus由多位醫生共同驗證，確保評估標準的專業性和一致性。

o3和GPT-4.1在HealthBench Consensus錯誤率，比GPT-4o顯著降低。

在HealthBench Hard上，表現最好的模型得分僅為32%，這表明它為下一代模型提供了一個有意義且具挑戰性的目標。

AI與醫生正面交鋒

那么，這些大模型能夠媲美，甚至超越人類醫生的專業判斷？

為此，OpenAI在研究還展開了一場人機對決測試。

262名專業醫生被分為了兩組：

一組醫生可以在不使用AI工具的情況下查閱網絡資源，撰寫最佳回答。
另一組醫生則可以參考OpenAI的模型生成回答，自由選擇直接修改或完全重寫，提供更高質量的回復。

隨后，研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比，評估它們在準確性、專業性和實用性等方面的表現。

關鍵發現如下：

2024年9月模型

在測試o1-preview、4o時，他們發現僅依靠AI生成回答，優于沒有參考任何AI醫生的回答。

更令人振奮的是，當醫生參考AI回答并加以優化后，他們的回答質量顯著超越了AI模型本身。

這表明，人類醫生的專業判斷，在AI輔助下能產生最佳效果。

2025年4月模型

這次實驗中，研究人員讓醫生參考最新o3、GPT-4.1模型的回答，試圖進一步提升回答質量。

然而，結果令人意外：

醫生的優化回答與AI原始回答相比，質量上沒有顯著提升。

而當前，AI模型已足夠強大，其回答質量幾乎達到了人類醫生最佳水平。

GPT-4.1參評遠超人類平均水平

為檢驗基于模型的評分器能否精準評判評分標準（rubric criteria），OpenAI邀請醫生對HealthBench Consensus中的模型回答予以審閱，以確定這些回答是否符合相應評分標準。

基于這些醫生的反饋，研究團隊構建了所謂的「元評估」（meta-evaluation），即評估模型評分與醫生判斷之間的一致性，重點衡量以下兩點：

1. 模型評分器與醫生之間的一致性：模型在判斷一個評分標準是否被滿足時，是否與醫生達成一致；

2. 醫生之間的一致性：多位醫生對同一模型回應的評分是否一致。

評估結果表明，模型評分器與醫生之間的配對一致性程度，和醫生之間的配對一致性程度相當。

這說明HealthBench使用的模型評分方法在很大程度上能夠代替專家評分，具有可信度和專業性。

基線模型

OpenAI將34條共識評分標準的數據按七大主題進行分組，評估模型評分器與醫生評分之間的一致性，并通過三種方式建立對照基線：

（1）典型醫生（Typical physician）

為了估計人類專家之間的評分一致性，需要對比每位醫生的評分與其他醫生的評分，并計算MF1分數。

也就是，用與模型相同的方式對醫生進行評分，僅統計該醫生參與評估的對話示例，且不使用該醫生自己的評分作為參考。

注釋：在分類任務中，宏平均F1分數（Macro F1，簡稱MF1）是對每個類別的F1分數進行不加權平均的結果。

MF1適用于類別不平衡的元評估（meta-evaluation）任務。

表5按主題報告了加權平均的醫生MF1分數，權重基于每位醫生參與的元示例數量。

（2）個體醫生（Individual physician）

OpenAI還在每個主題下報告了每位醫生的MF1分數。

圖12展示了這些醫生評分分數的分布情況。

（3）通過這些個體分數，模型評分器在每個主題下的MF1分數被表示為醫生分布中的百分位數，以更直觀地理解模型評分表現在「人類專家水平」中所處的位置。

這些基線設定讓我們能夠客觀評估模型評分系統的可靠性，驗證其是否達到了與醫生相當的專業判斷水平。

結果：GPT-4.1遠超普通醫生

如表5所示，在所有主題上，GPT-4.1作為評分模型的表現均明顯優于隨機基線。

更具體地說：

在7個主題中的5個中，GPT-4.1的評分表現超過了醫生平均水平；
在6個主題中，GPT-4.1的表現處于醫生評分分布的上半區間；
在所有主題中，GPT-4.1的評分能力都高于醫生群體的下三分之一（33百分位）。

這些結果說明，GPT-4.1作為基于模型的評分器，其表現已能與醫生專家的評估相媲美。

從圖12可以看到，不同醫生之間的評分表現差異顯著，說明醫生間本身也存在一定主觀性和評分風格的差異。

總的來說，只要滿足以下條件，基于模型的評分系統可以與專家評分一樣可靠：

基礎數據真實、多樣且注釋充分；

元評估設計合理；

評分提示（prompt）和評分模型經過精心挑選。

由于GPT-4.1在無需復雜推理模型帶來的高成本和延遲的情況下，就已達到了醫生級別的一致性表現，因此它被設置為HealthBench的默認評分模型。

模擬真實場景，多維度評估

結合模型合成生成與人工對抗測試方式，OpenAI創建了HealthBench，力求貼近真實場景，模擬真實世界中人們使用大模型的情況。

對話具有以下特點：

多輪交互，更符合自然對話流程
多語言支持，覆蓋不同語言背景
角色多樣，既包括普通用戶，也包括醫生
涵蓋多個醫學專業領域與場景
精心挑選，具有一定難度，避免模型輕松「答對」

這個基準的目標是推動更真實、更全面的AI健康對話能力評估，讓模型在實用性與安全性之間達到更好的平衡。

HealthBench使用「評分標準式評估」（rubric evaluation）方法：每個模型回答都會根據該對話特定的、由醫生撰寫的評分標準進行打分。

這些評分標準詳細說明了「完美回應」應包含哪些信息，或應避免哪些內容，比如：應提及某個醫學事實，或避免使用不必要的術語。

每一條評分標準都有對應的分值權重，根據醫生判斷該標準在整體回答中的重要性而設定。

整個HealthBench數據集中包含48,562條獨立評分標準。

HealthBench中的對話被劃分為七大主題，例如急診、應對不確定性、全球健康等。

每個主題下都包含多個相關示例，每個示例都配有對應的評分標準（rubric criteria）。

以下是一些數據集的示例。

每一條評分標準都對應一個評估維度（axis），用于界定該標準評估的是模型行為的哪個方面，例如：

準確性（accuracy）
溝通質量（communication quality）
信息查找與澄清能力（context seeking）

這種結構化的設計，讓HealthBench能夠細致、多角度地評估AI模型在不同醫療場景中的表現，反映在實際應用中的可靠性與實用性。

模型的回答由GPT-4.1擔任評分者，根據每項評分標準判斷是否達成，并根據滿足標準的總得分與滿分比值，給出整體評分。

HealthBench涵蓋了廣泛的醫學專科領域，包括：

麻醉學、皮膚病學、放射診斷學、急診醫學、家庭醫學、普通外科、內科、介入與放射診斷學、醫學遺傳與基因組學、神經外科、神經內科、核醫學、婦產科學、眼科學、骨科、耳鼻喉科、病理學、兒科學、物理醫學與康復、整形外科、精神病學、公共衛生與預防醫學、放射腫瘤學、胸外科、泌尿外科、血管外科。

這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。

整個HealthBench構建過程涵蓋了重點領域篩選、生成相關且具有挑戰性的案例樣本、案例標注以及各個環節的驗證工作。

責任編輯：張燕妮來源：新智元

OpenAI 模型數據

o3完爆人類醫生，OpenAI基準直擊AGI！

AGI關鍵要素，醫療AI「標尺」

o3沖榜 媲美人類醫生

GPT-4.1參評 遠超人類平均水平

模擬真實場景，多維度評估

o3沖榜媲美人類醫生

GPT-4.1參評遠超人類平均水平