反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂原創

算家計算

發布于 2025-8-11 17:09

瀏覽

0收藏

剛剛，中國醫療AI實現關鍵突破！百川智能開源Baichuan-M2，以32B小尺寸登頂全球醫療評測榜首，超越OpenAI。
?

今天，百川智能正式發布開源醫療增強大模型 Baichuan-M2。就在五天前，OpenAI 剛剛開源了兩款主打低部署成本和頂尖醫療能力的大模型 gpt-oss-120b 和 gpt-oss-20b。

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂-AI.x社區

【圖片來源于網絡，侵刪】

值得注意的是，Baichuan-M2 的尺寸只有 32B，卻能以更小尺寸實現全面反超，在全球開源醫療大模型中登頂第一。

根據權威醫療評測集 HealthBench 的最新結果，Baichuan-M2 獲得 60.1 的高分，超越 OpenAI 最新開源模型 gpt-oss120b 的 57.6 分。同時超越了 Qwen3-235B、Deepseek R1、Kimi K2 等當前全球所有主流開源大模型。而且，Baichuan-M2 的參數規模遠小于競爭對手。

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂-AI.x社區
?

針對醫療機構對患者隱私保護和私有化部署的迫切需求，百川對 Baichuan-M2 進行了極致輕量化處理。經過優化后的模型可以在單張 RTX 4090 顯卡上完成部署，同時保持接近無損的量化精度。

為滿足急診、門診等對實時響應要求極高的醫療場景，百川基于 Eagle-3 架構優化推出了 MTP 特別版本。該版本在單用戶場景下實現了 74.9% 的 token 速度躍升，顯著縮短了醫患交互等待時間。
?

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂-AI.x社區

在醫療能力顯著提升的同時，Baichuan-M2 的通用能力也有所提升。實際測試顯示，其在數學推理、指令遵循、文本寫作等通用核心能力上均表現出不降反升的趨勢。
?
反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂-AI.x社區

這一突破源于百川首創的技術路線——將醫療數據用于強化學習。作為中國首個采用此方案的團隊，百川驗證了高質量醫療數據對模型通用能力的增強價值。

在 OpenAI 設立的 HealthBench Hard 復雜醫療問題子集評測中，Baichuan-M2 獲得 34.7 的高分。該測試包含 1000 個特別困難的臨床問題，用于評估模型解決復雜醫學問題的全景能力。今年 5 月該評測發布時，全球頂尖模型得分均未超過 32 分。

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂-AI.x社區
?

這意味著 Baichuan-M2 成為繼 GPT-5 之后，全球第二款超過 32 分的模型，超越了包括 Claude 3.5、Gemini 2 在內的所有頂尖閉源模型。

Baichuan-M2 的技術突破源于四項關鍵創新：大型驗證系統、端到端強化學習、AI 患者模擬器，以及多類型醫療數據的深度推理機制。
?

今年1月，百川在業內首發 AI 患者模擬器，通過真實病例構建了上萬名不同年齡、性別、癥狀的虛擬患者。在 Baichuan-M2 的開發中，這一系統被全面升級，能夠模擬包含錯誤描述和模糊表達的真實患者敘述，極大還原了臨床問診的復雜性。

訓練過程中，百川采用多階段強化學習策略，將復雜的強化學習任務分解為多個層次化的訓練階段。AI 患者與 AI 醫生生成數百萬輪對話，驗證系統實時評估打分，形成動態優化閉環。
?

醫學驗證系統作為核心技術支撐，以專業醫療標準對模型輸出進行多維度評估。系統從醫療正確性、診療方案完備性、患者安全性及溝通友好性等角度嚴格評判，引導模型思維貼近資深醫生。

數據架構上，百川采用醫學數據、通用數據、數學推理數據按 2：2：1 的比例搭配。同時引入領域自我約束訓練機制，避免模型成為只懂醫學知識的“高分低能者”，確保其保持通識和推理綜合能力。
?

百川 Baichuan-M2 的發布標志著醫療 AI 發展的重要轉折。通過極致的輕量化設計和成本控制，頂尖醫療 AI 能力不再局限于大型研究機構或資金雄厚的醫院。

而且，百川的開源策略使全球醫療機構能夠免費獲取這一頂尖醫療模型。特別是在 OpenAI 未公開 GPT-5 參數、無法私有化部署的背景下，Baichuan-M2 成為醫療行業低成本應用世界級醫療 AI 的最佳選擇。

?
隨著模型在基層醫療機構的普及，AI 輔助診斷有望緩解優質醫療資源分布不均的問題。同時，大模型競爭的焦點正從參數規模轉向訓練質量和效率。這將促使 AI 技術更快融入真實醫療場景，創造更實際的臨床價值。
?

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

回復

舉報

回復

相關推薦

ODA：通過全局觀察增強大模型集成知識圖譜推理能力的新型Agent框架

PaperAgent ? 4745瀏覽 ? 0回復
醫療大模型，巨頭們的新賽場

liutao988 ? 3096瀏覽 ? 0回復
OpenAI模型終于更新！強大視聽能力的GPT-4o將面向所有用戶，其前身正是神秘的gpt2！

51CTO技術棧 ? 4522瀏覽 ? 0回復
OpenAI的可解釋性挑戰與解釋性人工智能（XAI）在醫療診斷中的關鍵作用

xuxiangda ? 6245瀏覽 ? 0回復
開源創新框架MoA，可極大增強大模型的能力

Aceryt ? 4324瀏覽 ? 0回復
醫療圖像分割中的深度學習方法

51CTO內容精選 ? 3127瀏覽 ? 0回復
我訓練了一個醫療多模態大模型幫家里老人看病

一起AI技術 ? 6805瀏覽 ? 0回復
推進醫療人工智能：評估 OpenAI 的 o1-Preview 模型并優化推理策略

Halo咯咯 ? 3899瀏覽 ? 0回復
谷歌再次反打OpenAI！

51CTO技術棧 ? 3860瀏覽 ? 0回復
DDPG算法輕松解決AI醫療機器人技術難題：連續動作控制

51CTO內容精選 ? 4211瀏覽 ? 0回復
對話數據合成：清華利用多Agent合成大量醫療對話數據顯著提升LLM在醫療場景效果

arnoldzhw ? 4945瀏覽 ? 0回復
MedRAG：利用知識圖譜引導推理提升醫療Copilot的RAG能力 - 新加坡南洋理工等

知識圖譜科技 ? 6928瀏覽 ? 0回復
登頂全球AI應用第2名，豆包排名第10

Aceryt ? 4299瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 4573瀏覽 ? 0回復
2小時登頂全球最強開源模型！Qwen3力壓DeepSeek-R1和OpenAI o1，登頂開源王座！

算家計算 ? 3204瀏覽 ? 0回復
國產AI登頂時刻：全球首個“AI版Office”登頂榜首，傳統Office軟件將被徹底顛覆？

算家計算 ? 2170瀏覽 ? 0回復
FedMRG: 通過大模型高效通信異構聯邦學習驅動的醫療報告生成

知識圖譜科技 ? 2927瀏覽 ? 0回復
深耕醫療的Baichuan-M2用了哪些黑科技

NLP工作站 ? 1432瀏覽 ? 0回復
國產大模型問鼎全球：混元圖像3.0登頂文生圖榜單的啟示

算家計算 ? 2652瀏覽 ? 0回復

算家計算

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂原創

目錄

51CTO

51CTO博客

51CTO學堂

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂 原創

目錄

反超OpenAI！國產醫療增強大模型Baichuan-M2醫療能力全球登頂原創