斯坦福臨床醫療AI橫評，DeepSeek把谷歌OpenAI都秒了

2025-06-03 17:40:30

人工智能

體系最終擴展為5 個類別、22 個子類別、121 項任務，全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面，且26位臨床醫生對子類別分類達成96.7%的一致性。

斯坦福最新大模型醫療任務全面評測，DeepSeek R1以66%勝率拿下第一！

歪國網友紛紛被驚艷住了，原因在于該評測重點聚焦臨床醫生的日常工作場景，而非僅局限于傳統醫療執照考試題。

圖片

要評測就要全方位。

團隊構建了含35個基準測試的綜合評估框架，覆蓋22個子類別醫療任務。

整個評測的分類體系還經過了臨床醫生驗證，由29名來自14個醫學專科的執業醫師共同參與開發。

光作者名單就老長，斯坦福大學醫學院、斯坦福醫療中心、斯坦福大學基礎模型研究中心（CRFM）、微軟的研究人員均在列。

圖片

31頁論文最終得出，DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內的9個前沿大模型，DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結果，團隊還打造了一個可公開訪問的排行榜。

圖片

除DeepSeek R1領先外，o3-mini緊隨其后，以64%勝率及最高0.77宏觀平均分緊追；Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究，網友表示這些評估很有幫助。

圖片

下面來看更多細節。

大模型臨床醫療任務大考

此綜合評估框架名為MedHELM，受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發。

圖片

研究核心貢獻之一是構建了一個經過臨床醫生驗證的分類體系。

該體系模擬了臨床醫生日常工作邏輯，包含三個層級：

類別：醫療活動的廣泛領域（如“臨床決策支持”）；
子類別：類別下的相關任務組（如“支持診斷決策”）；
任務：醫療服務中的離散操作（如“生成鑒別診斷”）。

在初步擬定分類體系時，一名臨床醫生基于《美國醫學會雜志》（JAMA）綜述中梳理的任務，將這些任務重組為反映真實醫療活動的功能主題，形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫學專科的29名執業臨床醫生參與問卷調研，從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據反饋，體系最終擴展為5 個類別、22 個子類別、121 項任務，全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面，且26位臨床醫生對子類別分類達成96.7%的一致性。

圖片

核心貢獻二，在分類體系基礎上，團隊構建了一個含35個基準測試的綜合評估套件，包括：

17個現有基準測試
5個基于現有數據集重新構建的基準測試
13個全新開發的基準測試

值得一提的是，13個全新開發的基準測試中有12個基于真實的電子健康記錄數據，有效彌補了現有評估中真實醫療數據使用不足的問題。

最終這整套基準測試，完全覆蓋了分類體系中的所有22個子類別，同時根據數據的敏感性和訪問限制，這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。

圖片

考試題準備就緒后，研究團隊對9個前沿大語言模型進行了系統性評估。

評測結果如何？

評估顯示，模型表現存在顯著差異。

DeepSeek R1表現最佳，在兩兩對比中以66%的勝率領先，宏觀平均分為0.75，且勝率標準差較低（0.10）。

其中勝率指模型在全部35個基準測試的兩兩對比中表現更優的比例。勝率標準差（SD）衡量模型獲勝的穩定性（值越低=穩定性越高）。宏觀平均分是所有35個基準測試的平均性能得分。標準差（SD）反映模型在不同基準測試中的性能波動（值越低=跨基準一致性越高）。

o3-mini緊隨其后，在臨床決策支持類別基準中表現較優，以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%，宏觀平均分均為0.73；GPT-4o勝率為57%；Gemini 2.0 Flash和GPT-4o mini勝率較低，分別為42%、39%。

另外，開源模型Llama 3.3 Instruct勝率為30%；Gemini 1.5 Pro以24%的勝率排名末位，但其勝率標準差最低（0.08），顯示出最穩定的競爭表現。

圖片

團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分，深綠色表示性能更高，深紅色表示低性能。

圖片

結果顯示，模型在以下基準測試中表現較差：

MedCalc-Bench（從患者病歷中計算醫學值）
EHRSQL（根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集）
MIMIC-IV Billing Code（為臨床病例分配ICD-10代碼）

在NoteExtract基準測試（從臨床病歷中提取特定信息）中表現最佳。

更深入的分析顯示，不同類別的任務中模型表現呈現明顯的層次性差異。

在臨床病例生成任務中，大多數模型達到了0.74-0.85的高分表現；在患者溝通教育任務中表現同樣出色，得分在0.76-0.89之間；在醫學研究輔助（0.65-0.75）和臨床決策支持（0.61-0.76）類別中表現中等，而在管理與工作流程（0.53-0.63）類別中的得分普遍較低。

這種差異反映了自由文本生成任務（如臨床病例生成、患者溝通）更適合發揮大語言模型的自然語言優勢，而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力。

圖片

對于13個開放式基準測試，團隊采用了大語言模型評審團（LLM-jury）評估方法。

為評估該方法的有效性，團隊收集了臨床醫生對部分模型輸出的獨立評分。其中，從ACI-Bench中選取了31個實例，從MEDIQA-QA中選取了25個實例，以比較臨床醫生給出的分數與評審團的綜合評分。

圖片

結果顯示，LLM陪審團方法與臨床醫生評分的一致性達到0.47的組內相關系數，不僅超過了臨床醫生之間的平均一致性（ICC=0.43），也明顯優于傳統的自動化評估指標如ROUGE-L（0.36）和BERTScore-F1（0.44）。

團隊由此認為，大語言模型評審團比標準詞匯指標更能反映臨床醫生的判斷，證明了其作為臨床醫生評分替代方法的有效性。

成本效益分析是該研究的另一個創新，基于2025年5月12日的公開定價，團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數，估算了每個模型所需的成本。

圖片

正如預期，非推理模型GPT-4o mini（805美元）和Gemini 2.0 Flash（815美元）成本更低，勝率分別為0.39和0.42。

推理模型成本較高，DeepSeek R1（1806美元）和o3-mini（1722美元）的勝率分別為0.66和0.64。

綜合來看，Claude 3.5 Sonnet（1571美元）和Claude 3.7 Sonnet（1537美元）在性價比上表現良好，以較低成本實現了約0.63的勝率。

圖片

論文鏈接：https://arxiv.org/pdf/2505.23802

Blog鏈接：https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜鏈接：https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接：https://x.com/iScienceLuvr/status/1929388406032810046

責任編輯：武曉燕來源：量子位

AI DeepSeek OpenAI