精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福臨床醫療AI橫評,DeepSeek把谷歌OpenAI都秒了

人工智能
體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性。

斯坦福最新大模型醫療任務全面評測,DeepSeek R1以66%勝率拿下第一!

歪國網友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫生的日常工作場景,而非僅局限于傳統醫療執照考試題。

圖片圖片

要評測就要全 方 位。

團隊構建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫療任務。

整個評測的分類體系還經過了臨床醫生驗證,由29名來自14個醫學專科的執業醫師共同參與開發。

光作者名單就老長,斯坦福大學醫學院、斯坦福醫療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。

圖片圖片

31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內的9個前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結果,團隊還打造了一個可公開訪問的排行榜。

圖片圖片

除DeepSeek R1領先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究,網友表示這些評估很有幫助。

圖片圖片

下面來看更多細節。

大模型臨床醫療任務大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發。

圖片圖片

研究核心貢獻之一是構建了一個經過臨床醫生驗證的分類體系。

該體系模擬了臨床醫生日常工作邏輯,包含三個層級:

  • 類別:醫療活動的廣泛領域(如“臨床決策支持”);
  • 子類別:類別下的相關任務組(如“支持診斷決策”);
  • 任務:醫療服務中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時,一名臨床醫生基于《美國醫學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫學專科的29名執業臨床醫生參與問卷調研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性。

圖片圖片

核心貢獻二,在分類體系基礎上,團隊構建了一個含35個基準測試的綜合評估套件,包括:

  • 17個現有基準測試
  • 5個基于現有數據集重新構建的基準測試
  • 13個全新開發的基準測試

值得一提的是,13個全新開發的基準測試中有12個基于真實的電子健康記錄數據,有效彌補了現有評估中真實醫療數據使用不足的問題。

最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據數據的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。

圖片圖片

考試題準備就緒后,研究團隊對9個前沿大語言模型進行了系統性評估。

評測結果如何?

評估顯示,模型表現存在顯著差異。

DeepSeek R1表現最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)。

其中勝率指模型在全部35個基準測試的兩兩對比中表現更優的比例。勝率標準差(SD)衡量模型獲勝的穩定性(值越低=穩定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)。

o3-mini緊隨其后,在臨床決策支持類別基準中表現較優,以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩定的競爭表現。

圖片圖片

團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。

圖片圖片

結果顯示,模型在以下基準測試中表現較差:

  • MedCalc-Bench(從患者病歷中計算醫學值)
  • EHRSQL(根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現最佳。

更深入的分析顯示,不同類別的任務中模型表現呈現明顯的層次性差異。

在臨床病例生成任務中,大多數模型達到了0.74-0.85的高分表現;在患者溝通教育任務中表現同樣出色,得分在0.76-0.89之間;在醫學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發揮大語言模型的自然語言優勢,而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力。

圖片圖片

對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

為評估該方法的有效性,團隊收集了臨床醫生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫生給出的分數與評審團的綜合評分。

圖片圖片

結果顯示,LLM陪審團方法與臨床醫生評分的一致性達到0.47的組內相關系數,不僅超過了臨床醫生之間的平均一致性(ICC=0.43),也明顯優于傳統的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)。

團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫生的判斷,證明了其作為臨床醫生評分替代方法的有效性。

成本效益分析是該研究的另一個創新,基于2025年5月12日的公開定價,團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數,估算了每個模型所需的成本。

圖片圖片

正如預期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價比上表現良好,以較低成本實現了約0.63的勝率。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2505.23802

Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

責任編輯:武曉燕 來源: 量子位
相關推薦

2019-12-16 14:33:01

AI人工智能斯坦福

2025-04-09 04:22:00

2025-04-08 13:16:34

2017-11-28 14:18:29

2024-04-24 09:47:36

2023-08-10 14:01:08

開源虛擬

2019-03-24 12:11:47

AI 數據人工智能

2018-01-23 16:48:47

AI

2025-02-28 09:52:00

2025-07-21 11:51:12

模型AI工具

2025-04-09 11:25:36

2025-01-14 12:22:10

2021-03-10 14:48:27

人工智能

2022-07-04 09:12:09

AI技術論文

2019-03-27 10:47:05

人工智能法律AI

2025-06-04 08:00:00

2021-03-05 10:57:33

AI 數據人工智能

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲韩国日本视频| 麻豆成人免费电影| 亚洲天堂av网| 手机av在线免费| 欧美理论电影| 国产视频一区在线观看| 91在线观看免费观看 | 国内精品偷拍| 在线视频你懂得一区二区三区| 亚洲精品成人三区| 丰满人妻一区二区三区免费视频| 久久狠狠婷婷| 欧美黑人狂野猛交老妇| 欧美多人猛交狂配| 日韩成人在线看| 色婷婷综合久色| 欧美人成在线观看| 天堂地址在线www| 91女厕偷拍女厕偷拍高清| 国产精品青草久久久久福利99| 日韩女优一区二区| 成人高清电影网站| 日韩第一页在线| 九九热视频免费| 日韩精品第一| 亚洲超丰满肉感bbw| 国产一区一区三区| av在线免费一区| av爱爱亚洲一区| 亚洲综合国产精品| 亚洲最大成人在线视频| 久久久久99| 538国产精品一区二区在线| 黄色录像一级片| 精品日韩在线| 亚洲欧美成人网| 国产传媒第一页| 国产一区二区三区不卡av| 欧美一区二区观看视频| av网站在线不卡| 中文字幕人成乱码在线观看 | 在线播放日韩精品| 精品人妻无码一区二区三区| 精品自拍偷拍| 亚洲国产另类久久精品| 亚洲自拍偷拍精品| 精品资源在线| 日韩精品在线观看一区| 亚洲精品乱码久久久久久蜜桃欧美| 亚洲日本免费电影| 538prom精品视频线放| 中文字幕av专区| 高清在线一区| 在线播放中文一区| 91视频福利网| 亚洲成人影音| 精品国产一区二区三区四区四| 欧美xxxxxbbbbb| 精品国产一区二区三区2021| 91麻豆精品国产91久久久| 国产欧美激情视频| 日韩欧美中文字幕在线视频 | 小说区亚洲自拍另类图片专区 | 日本高清在线观看视频| 一区二区在线观看免费| 亚洲第一精品区| 在线观看美女网站大全免费| 国产精品久久久久永久免费观看| 一区二区三区av| 成人免费看片| 亚洲一卡二卡三卡四卡无卡久久 | 国产免费一区二区三区四区| 亚洲蜜桃视频| 高清欧美性猛交| 国产在线观看黄色| 美美哒免费高清在线观看视频一区二区| 国产精品视频一区二区高潮| 一区二区久久精品66国产精品 | 99久久一区三区四区免费| 亚洲狼人综合网| 91视频观看视频| 亚洲一区二区三区午夜| av在线免费网址| 精品高清一区二区三区| 国产视频在线视频| 韩国一区二区三区视频| 亚洲高清av在线| 欧美偷拍一区二区三区| 影音先锋成人在线电影| 性金发美女69hd大尺寸| 亚洲精品一区二区二区| 国产传媒欧美日韩成人| 欧美极品jizzhd欧美| 色三级在线观看| 亚洲成人av电影| www.色偷偷.com| 免费看日产一区二区三区| 日韩精品免费在线视频观看| 少妇高潮惨叫久久久久| 夜夜嗨av一区二区三区网站四季av| 日韩美女视频免费在线观看| 国产伦精品一区二区三区四区| 成人18视频在线播放| 亚洲国内在线| 蜜桃视频m3u8在线观看| 91精品欧美一区二区三区综合在| 91视频啊啊啊| 伊人情人综合网| 国产精品白嫩美女在线观看| 成人h动漫精品一区二区无码| 国产视频一区在线观看| 国产精品专区在线| 97久久中文字幕| 曰本色欧美视频在线| 久久久精品国产sm调教| 捆绑变态av一区二区三区| 国产一区二区三区四区hd| 午夜国产福利在线| 在线免费观看成人短视频| 国产xxxx视频| 欧美freesex交免费视频| 国产精品高潮呻吟久久av野狼 | 中文av字幕一区| 天堂…中文在线最新版在线| 日韩在线观看中文字幕| 最新69国产成人精品视频免费| 国产又大又黄视频| 白白色 亚洲乱淫| 一区二区三区四区免费观看| 日韩制服一区| 亚洲天堂第一页| 精品成人av一区二区在线播放| 国产黄色91视频| 妞干网这里只有精品| 欧美成人福利| 国产一区二区三区在线观看视频| 成人免费看片98欧美| 成人在线视频一区| 青草视频在线观看视频| 日韩第一区第二区| 欧美黑人巨大精品一区二区| 国产aⅴ一区二区三区| 中文字幕中文字幕一区| 99热这里只有精品在线播放| 色综合中文网| 国产精品成人播放| 成在在线免费视频| 欧美图区在线视频| 国产免费嫩草影院| 久色婷婷小香蕉久久| 亚洲最大色综合成人av| 欧美高清你懂的| www.国产一区| 国产丝袜在线视频| 亚洲国产一区在线观看| 深夜视频在线观看| 日韩一区二区免费看| 狠狠色综合色区| 中文在线8资源库| 在线观看日韩专区| 91欧美日韩麻豆精品| 亚洲女性喷水在线观看一区| 人妻换人妻仑乱| 亚洲无线一线二线三线区别av| 国产精品一区二区三区在线 | 日韩在线观看www| 欧美日韩1区2区| 国产精品 欧美激情| 粉嫩嫩av羞羞动漫久久久 | 亚洲免费在线精品一区| 日日夜夜亚洲| 欧美精品在线网站| 五月婷婷深深爱| 91搞黄在线观看| 久久99久久99精品免费看小说| 国产成人精品影院| 国模吧无码一区二区三区| 精品72久久久久中文字幕| 国产精品影片在线观看| 里番在线播放| 亚洲视频专区在线| www.我爱av| 色系网站成人免费| 国产美女高潮视频| 成人av手机在线观看| 成人亚洲视频在线观看| 91精品一区二区三区综合在线爱| 国内精品视频在线播放| 国产成人77亚洲精品www| 欧美国产激情18| 国产在线小视频| 日韩欧美国产一二三区| 日韩熟女一区二区| 一区二区三区在线观看网站| 国产毛片久久久久久久| 国产精品一区二区久久精品爱涩| 欧美一区二区三区爽大粗免费| 欧美亚洲激情| 国产综合 伊人色| 视频欧美精品| 欧美洲成人男女午夜视频| 免费a在线看| 亚洲免费影视第一页| 亚洲国产精品成人久久蜜臀| 欧美在线视频日韩| 国产午夜精品一区二区理论影院 | 88xx成人网| 国内精品久久久久久久久| 午夜免费福利在线观看| 亚洲美女自拍视频| 丰满人妻一区二区三区四区53| 欧美无乱码久久久免费午夜一区 | 欧美一级生活片| 免费精品一区二区| 性做久久久久久久免费看| 男人在线观看视频| 中文字幕乱码亚洲精品一区| 一区二区三区少妇| 国产不卡一区视频| 男女污污视频网站| 日本 国产 欧美色综合| 黑人糟蹋人妻hd中文字幕| 亚洲视频久久| 国产精品av免费观看| 四季av在线一区二区三区| 欧洲成人一区二区| 亚洲aaa级| 黑人中文字幕一区二区三区| 伊人久久大香线蕉av超碰| 成人精品一区二区三区电影免费| av有声小说一区二区三区| 91精品国产乱码久久久久久蜜臀 | 视频三区在线| 在线观看国产精品日韩av| 青青草娱乐在线| 国产视频欧美视频| 日本在线丨区| 亚洲精品视频免费| 日中文字幕在线| 日韩成人av网址| 色呦呦中文字幕| 亚洲第一国产精品| 手机看片1024日韩| 日韩av影院在线观看| 少妇喷水在线观看| 亚洲精品美女久久| 五月天婷婷在线播放| 亚洲精品国产精品国自产在线| 欧美一区,二区| 日韩成人xxxx| 免费在线性爱视频| 亚洲一区二区黄| 亚洲欧美视频一区二区| 久久精品国产欧美亚洲人人爽| 国产理论在线观看| 欧美国产日韩一区二区| 男女在线观看视频| 欧美一区二区三区免费观看| 亚洲男人av| 国产精品日日做人人爱| 久久久久伊人| 亚洲在线观看视频网站| eeuss国产一区二区三区四区| 国产精品免费视频一区二区| 台湾亚洲精品一区二区tv| 欧洲久久久久久| 99久久久久国产精品| 国产欧美123| 国产欧美欧美| 手机在线免费观看毛片| 韩国v欧美v日本v亚洲v| 丝袜熟女一区二区三区| 久久久综合精品| 日韩三级久久久| 亚洲综合久久久| youjizz在线视频| 欧美顶级少妇做爰| 欧洲成人一区二区三区| 一区二区福利视频| 污视频网站免费在线观看| 456国产精品| 亚洲青青一区| 美国av一区二区三区| 91九色精品国产一区二区| 日本手机在线视频| 日本不卡中文字幕| 国产亚洲精品成人a| 久久精品视频网| 欧美精品xxxxx| 欧美亚洲高清一区| 国产成人手机在线| 这里只有精品视频在线| 麻豆蜜桃在线| 国产精品啪视频| 日本成人a网站| 在线视频一二三区| 日韩精品五月天| 久久久久无码国产精品一区李宗瑞| 久久精子c满五个校花| 18岁成人毛片| 欧美在线999| 天堂av电影在线观看| 成人97在线观看视频| 日韩中文影院| 国产一区二区三区色淫影院| 性xxxx欧美老肥妇牲乱| 成年人小视频网站| 99精品国产99久久久久久白柏 | 欧美日韩另类在线| 99在线观看精品视频| 亚洲人成在线观看| eeuss鲁一区二区三区| 成人午夜一级二级三级| 九九久久成人| 波多野结衣之无限发射| 国产麻豆成人传媒免费观看| www..com.cn蕾丝视频在线观看免费版| 亚洲制服丝袜一区| 国产裸体无遮挡| 色视频www在线播放国产成人| 97成人资源| 国产欧美日韩亚洲| 欧美日韩日本国产亚洲在线 | 久久夜色精品国产欧美乱| 美女日韩欧美| 精品欧美国产一区二区三区不卡| 欧美aⅴ99久久黑人专区| 污视频网址在线观看| 国产精品素人视频| 国产精品欧美综合| 亚洲日本aⅴ片在线观看香蕉| 国产高清中文字幕在线| 国产高清一区视频| 欧美a级在线| 中文字幕av一区二区三区人妻少妇 | 国产精品成人一区二区三区电影毛片| 亚洲福利视频一区| 草逼视频免费看| 九九久久国产精品| 久久丁香四色| 国产精品av免费观看| 国产成人在线观看| 国产性一乱一性一伧一色| 欧美一区三区二区| 污污在线观看| 成人av电影免费| 日韩午夜一区| 国产精品无码一区二区三区免费| 欧美日韩亚洲视频| 欧美巨乳在线| 国产精品一区二区在线| 欧美freesextv| 国产成人在线综合| 亚洲六月丁香色婷婷综合久久| 国产成人三级在线播放| 欧美精品videosex极品1| 女人抽搐喷水高潮国产精品| 成年人视频网站免费观看| 国产亚洲短视频| 亚洲天堂男人网| 久久大大胆人体| 成人精品毛片| 青青草原成人网| 中文字幕免费不卡在线| 99久久亚洲精品日本无码| 欧美大片在线看| 亚洲aaa级| 色呦色呦色精品| 亚洲成人免费视| 国内在线免费高清视频| 91免费福利视频| 亚洲福利国产| 中文字幕人妻一区二区三区在线视频| 欧美日韩的一区二区| 美女网站视频在线| 欧美日韩在线精品一区二区三区| 免费欧美在线视频| 久久国产一级片| 亚洲另类xxxx| 国产精久久一区二区| 亚洲人精品午夜射精日韩| 国产欧美精品一区aⅴ影院 | 国产精品无码久久久久| 黄色一级片国产| 久久久久久久久久久久久女国产乱| 一级成人免费视频| 午夜精品久久久久久久久久久久久| 免费成人结看片| 一个人看的视频www| 色菇凉天天综合网| 久草在线资源站资源站| 日韩精品一区二区三区丰满| 国产乱对白刺激视频不卡| 天天操天天爽天天干| 色婷婷综合成人av| 日韩激情毛片| 中文字幕avav| 欧美性感一区二区三区| av福利在线导航| 综合久久国产|