反超OpenAI!國產醫療增強大模型Baichuan-M2醫療能力全球登頂 原創
剛剛,中國醫療AI實現關鍵突破!百川智能開源Baichuan-M2,以32B小尺寸登頂全球醫療評測榜首,超越OpenAI。
?
今天,百川智能正式發布開源醫療增強大模型 Baichuan-M2。就在五天前,OpenAI 剛剛開源了兩款主打低部署成本和頂尖醫療能力的大模型 gpt-oss-120b 和 gpt-oss-20b。
?

【圖片來源于網絡,侵刪】
?
值得注意的是,Baichuan-M2 的尺寸只有 32B,卻能以更小尺寸實現全面反超,在全球開源醫療大模型中登頂第一。
?
根據權威醫療評測集 HealthBench 的最新結果,Baichuan-M2 獲得 60.1 的高分,超越 OpenAI 最新開源模型 gpt-oss120b 的 57.6 分。同時超越了 Qwen3-235B、Deepseek R1、Kimi K2 等當前全球所有主流開源大模型。而且,Baichuan-M2 的參數規模遠小于競爭對手。
?

?
針對醫療機構對患者隱私保護和私有化部署的迫切需求,百川對 Baichuan-M2 進行了極致輕量化處理。經過優化后的模型可以在單張 RTX 4090 顯卡上完成部署,同時保持接近無損的量化精度。
?
為滿足急診、門診等對實時響應要求極高的醫療場景,百川基于 Eagle-3 架構優化推出了 MTP 特別版本。該版本在單用戶場景下實現了 74.9% 的 token 速度躍升,顯著縮短了醫患交互等待時間。
?

?
在醫療能力顯著提升的同時,Baichuan-M2 的通用能力也有所提升。實際測試顯示,其在數學推理、指令遵循、文本寫作等通用核心能力上均表現出不降反升的趨勢。
?

?
這一突破源于百川首創的技術路線——將醫療數據用于強化學習。作為中國首個采用此方案的團隊,百川驗證了高質量醫療數據對模型通用能力的增強價值。
?
在 OpenAI 設立的 HealthBench Hard 復雜醫療問題子集評測中,Baichuan-M2 獲得 34.7 的高分。該測試包含 1000 個特別困難的臨床問題,用于評估模型解決復雜醫學問題的全景能力。今年 5 月該評測發布時,全球頂尖模型得分均未超過 32 分。
?

?
這意味著 Baichuan-M2 成為繼 GPT-5 之后,全球第二款超過 32 分的模型,超越了包括 Claude 3.5、Gemini 2 在內的所有頂尖閉源模型。
?
Baichuan-M2 的技術突破源于四項關鍵創新:大型驗證系統、端到端強化學習、AI 患者模擬器,以及多類型醫療數據的深度推理機制。
?
今年1月,百川在業內首發 AI 患者模擬器,通過真實病例構建了上萬名不同年齡、性別、癥狀的虛擬患者。在 Baichuan-M2 的開發中,這一系統被全面升級,能夠模擬包含錯誤描述和模糊表達的真實患者敘述,極大還原了臨床問診的復雜性。
?
訓練過程中,百川采用多階段強化學習策略,將復雜的強化學習任務分解為多個層次化的訓練階段。AI 患者與 AI 醫生生成數百萬輪對話,驗證系統實時評估打分,形成動態優化閉環。
?
醫學驗證系統作為核心技術支撐,以專業醫療標準對模型輸出進行多維度評估。系統從醫療正確性、診療方案完備性、患者安全性及溝通友好性等角度嚴格評判,引導模型思維貼近資深醫生。
?
數據架構上,百川采用醫學數據、通用數據、數學推理數據按 2:2:1 的比例搭配。同時引入領域自我約束訓練機制,避免模型成為只懂醫學知識的“高分低能者”,確保其保持通識和推理綜合能力。
?
百川 Baichuan-M2 的發布標志著醫療 AI 發展的重要轉折。通過極致的輕量化設計和成本控制,頂尖醫療 AI 能力不再局限于大型研究機構或資金雄厚的醫院。
?
而且,百川的開源策略使全球醫療機構能夠免費獲取這一頂尖醫療模型。特別是在 OpenAI 未公開 GPT-5 參數、無法私有化部署的背景下,Baichuan-M2 成為醫療行業低成本應用世界級醫療 AI 的最佳選擇。
?
隨著模型在基層醫療機構的普及,AI 輔助診斷有望緩解優質醫療資源分布不均的問題。同時,大模型競爭的焦點正從參數規模轉向訓練質量和效率。這將促使 AI 技術更快融入真實醫療場景,創造更實際的臨床價值。
?

















