細(xì)節(jié)決定成敗!深耕醫(yī)療的Baichuan-M2用了哪些黑科技
實(shí)話實(shí)說(shuō),本來(lái)沒(méi)有這篇稿子,我并沒(méi)有太關(guān)注Baichuan-M2這個(gè)模型,因?yàn)樽罱_源社區(qū)太火爆了,各家都在卷。
7月份見(jiàn)?開源模型盤點(diǎn),而8月剛過(guò)半,已經(jīng)有Qwen-Image、dots.vlm1、MiniCPM-V 4.0、GLM4.5V等等等。
那么,Baichuan-M2這個(gè)垂域模型就顯得不那么驚艷了(很多人都更關(guān)心通用模型),還有百川上次開源M1已經(jīng)是五六個(gè)月前了,當(dāng)時(shí)在群里發(fā)AI日?qǐng)?bào),一眾小伙伴都驚訝百川還在發(fā)模型。
PS:不過(guò)我群里有個(gè)內(nèi)應(yīng),說(shuō)他們項(xiàng)目挺多的~

不過(guò),因?yàn)榭吹綐O客公園采訪王小川的稿子,我對(duì)百川的這個(gè)模型又提起了興趣。同時(shí)M2在healthbench hard 上的表現(xiàn)也超過(guò)了32分,實(shí)屬不易。

https://mp.weixin.qq.com/s/BeowHiFg3otIcfEIufredw
PS:推薦大家看一下這個(gè)采訪,里面對(duì)垂域模型、領(lǐng)域壁壘等一些內(nèi)容說(shuō)的蠻好的,當(dāng)然也是很多做領(lǐng)域大模型的人都遇到的困局、及面臨的選擇。
說(shuō)回醫(yī)療大模型,其實(shí)醫(yī)療AI一直很有市場(chǎng),不過(guò)真正落地有很多困難,大模型效果、幻覺(jué)、信任度等等,說(shuō)實(shí)話,百川在2024年就ALL IN醫(yī)療,挺有魄力的。
關(guān)注技術(shù)本身,看了Baichuan-M2的技術(shù)報(bào)告,發(fā)現(xiàn)里面還是有很多細(xì)節(jié)在的,同時(shí)這也是一個(gè)做垂域模型很好的例子,在小參數(shù)下,達(dá)到甚至超越大參數(shù)模型的效果。
而我也是一直在做這樣的事情,因?yàn)槁涞爻杀菊媸呛艽蟮膯?wèn)題,只不過(guò)我在做ToB,王小川是要做ToC。
Blog:https://www.baichuan-ai.com/blog/baichuan-M2
HF:https://huggingface.co/baichuan-inc/Baichuan-M2-32B整體流程應(yīng)該涉及兩個(gè)部分Mid-Training 和 Post-Training。
Mid Training 就是向通用大模型中注入領(lǐng)域知識(shí)的過(guò)程,感覺(jué)說(shuō)是Continue Pre-train也可以,不過(guò)Baichuan這里用了領(lǐng)域自約束持續(xù)預(yù)訓(xùn)練方法,在維護(hù)通用模型的知識(shí),確保保留通用任務(wù)解決能力的前提下,使訓(xùn)練模型能夠獲取領(lǐng)域特定的知識(shí)。

https://arxiv.org/abs/2412.15270
高質(zhì)量醫(yī)療數(shù)據(jù)、其他通用數(shù)據(jù)和數(shù)學(xué)推理數(shù)據(jù)的比例為 2:2:1 ,基模是Qwen2.5-32B模型,哈哈哈,Qwen在開源社區(qū)的含金量依舊很高。
重點(diǎn)在RL部分,整體流程如下:

其實(shí)我們都知道RL部分獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵,其實(shí)在真實(shí)使用時(shí)找到好的獎(jiǎng)勵(lì)很難,日常任務(wù)一般考獎(jiǎng)勵(lì)模型,不像數(shù)學(xué)、代碼等有明確的獎(jiǎng)勵(lì)。
M2這里設(shè)計(jì)了一個(gè)Verifier系統(tǒng),對(duì)模型在多輪交互中的整體表現(xiàn)進(jìn)行持續(xù)、動(dòng)態(tài)的量化評(píng)估,評(píng)估診斷準(zhǔn)確性、問(wèn)診的邏輯連貫性、治療方案的合理性、溝通和共情能力以及醫(yī)學(xué)倫理等關(guān)鍵維度。

從M2的回答上來(lái)看,可以看出溝通和共情能力很強(qiáng)。大多數(shù)人,在詢問(wèn)醫(yī)療問(wèn)題的時(shí)候,是很焦慮的,溝通和共情就是很關(guān)鍵的內(nèi)容,這也是AI醫(yī)生的關(guān)鍵所在。
因?yàn)槲覀冃枰牟⒉皇抢浔臋C(jī)器,我們需要可以跟我們交流的、讓我們感受到溫暖的伙伴醫(yī)生。它需要能理解我們的病情,更能讀懂我們的情緒,在解釋病因、分析檢查結(jié)果、提出治療建議時(shí),既有專業(yè)的嚴(yán)謹(jǐn),又有耐心的關(guān)懷。
做RL都知道,獎(jiǎng)勵(lì)做的好,RL成一半!M2還采用Multi-Stage RL策略,復(fù)雜任務(wù)拆解,逐步提高模型能力。
同時(shí)最有意思的一個(gè)東西,就是AI患者模擬器,這個(gè)我真是才知道,不過(guò)這個(gè)已經(jīng)是Baichuan今年1月份發(fā)的論文了。
Paper:Exploring the Inquiry-Diagnosis Relationship with Advanced Patient Simulators
AI患者模擬器可以模擬真實(shí)患者的情緒(如焦慮)、主動(dòng)提問(wèn)和非合作行為,最大程度還原了真實(shí)醫(yī)療場(chǎng)景,從而可以進(jìn)一步提高整個(gè)的問(wèn)診質(zhì)量。
同時(shí)經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),醫(yī)療問(wèn)診和診斷是存在木桶效應(yīng)的,問(wèn)診質(zhì)量直接決定診斷上限。同時(shí)提供4類問(wèn)診動(dòng)作分布分析,幫助定位醫(yī)生模型的提問(wèn)短板,為模型訓(xùn)練提供高質(zhì)量素材。

然后RL的算法采用GRPO,同時(shí)做了以下修改:去除 KL 散度、Clip-higher、損失歸一化、 優(yōu)勢(shì)歸一化、動(dòng)態(tài)長(zhǎng)度獎(jiǎng)勵(lì)等。
我沒(méi)部署,直接用的官方鏈接,
https://platform.baichuan-ai.com/playground?initialmodel=Baichuan-M2
為了更貼近臨床場(chǎng)景,我先找了一個(gè)真實(shí)問(wèn)診案例,對(duì)比了擅長(zhǎng)醫(yī)學(xué)的 GPT-5,結(jié)果發(fā)現(xiàn) M2 在信息覆蓋度和細(xì)節(jié)處理上都很突出。

同樣,百川的回答像一份系患者就診指南,信息覆蓋全面,幫助患者梳理了相關(guān)情況,又引導(dǎo)患者高效、安全地就醫(yī),風(fēng)險(xiǎn)提示十分明確,對(duì)潛在危險(xiǎn)做了很好的預(yù)警。

很多垂域大模型一旦跳出專業(yè)范圍,就容易掉線,而 M2 在通用任務(wù)上的能力依然在線。就用了我之前常測(cè)的通用題來(lái)看看它的效果。
Prompt: 用水來(lái)兌水,得到的是濃水還是稀水

Prompt: 小紅有2個(gè)兄弟,3個(gè)姐妹,那么小紅的兄弟有幾個(gè)姐妹

Prompt:2024年年高考全國(guó)甲卷數(shù)學(xué)(文)試題


雖然在 RL 訓(xùn)練后的表現(xiàn)中,回答稍微有些偏長(zhǎng),但邏輯性和準(zhǔn)確性依舊可圈可點(diǎn)。這說(shuō)明它的領(lǐng)域優(yōu)化并沒(méi)有犧牲掉太多通用能力,在實(shí)際落地中更具彈性和適配性。
最后想說(shuō),
想要做一個(gè)AI醫(yī)療產(chǎn)品,光有一個(gè)大模型當(dāng)然是遠(yuǎn)遠(yuǎn)不夠的,
大模型只是基礎(chǔ)能力的起點(diǎn),要真正走進(jìn)臨床場(chǎng)景,權(quán)威醫(yī)學(xué)資料構(gòu)建的底層知識(shí)庫(kù)是必不可少的,
還需要多層次的知識(shí)校驗(yàn)體系,確保每一次診斷和建議都經(jīng)過(guò)嚴(yán)謹(jǐn)驗(yàn)證,減少錯(cuò)誤與偏差。
只有當(dāng)這些環(huán)節(jié)環(huán)環(huán)相扣,AI醫(yī)生才能既有溫度,又有精準(zhǔn)度,既讓患者感到被理解,也能讓醫(yī)生在臨床決策中安心依賴。
這條路注定艱難,但我們依舊向前~

PS:現(xiàn)在AI醫(yī)療產(chǎn)品也有不少,看看最后誰(shuí)能跑出來(lái)吧~
本文轉(zhuǎn)載自????????NLP工作站????????,作者:NLP工作站

















