從全心臟模型到基于 LLM 的疾病網絡分析,清華長庚醫院李棟從數據視角剖析醫療大模型發展趨勢 原創 精華
隨著人工智能技術的不斷深入成熟,AI 也賦予了醫療領域一場深刻的變革——通過整合多源數據與智能算法,為醫療行業的效率提升、精準診斷都提供了全新解決方案。醫療數據作為大模型的「燃料」,也是醫療決策的核心載體,它的角色至關重要,尤其是在中國醫療體系加速數字化轉型的背景下,從數據角度解析醫療模型更是創新的必經途徑。
近日,在 2025 北京智源大會中,清華長庚醫院醫學數據科學中心主任李棟教授在「AI+理工&醫學」專題論壇中,以「智慧醫療時代下如何應用醫療數據開展創新研究」為題,結合清華長庚醫院的實踐經驗,從數據角度對大模型的落地模式、技術局限、資源重構、以及應用探索等多個維度進行了分享。

李棟教授演講現場
HyperAI 超神經在不違原意的前提下,對李棟教授的深度分享進行了整理匯總,以下為演講實錄。
大模型在醫療場景中的應用與挑戰
「本地部署+定制開發+斷網使用」模式應用
DeepSeek 作為一款近年來火爆出圈的大模型,它在醫療場景中的適用模式主要有 3 種使用方式:手機端輕量使用模式、云端接入模式,以及「本地部署+定制開發+斷網使用」。
在這 3 種接入方式中,「本地部署+定制開發+斷網使用」成為實踐最優解。云端模式因「數據不能離院」政策限制,無法利用真實數據訓練模型,導致其成為「靜態模板」;而手機端輕量應用僅能處理簡單咨詢,無法觸及醫療核心需求。「本地部署+定制開發+斷網使用」雖能規避數據泄露與污染風險(如外源性幻覺數據混入),但也意味著醫院需獨立承擔高昂的算力成本。
大模型醫療中面臨的挑戰
在醫院落地大模型的過程中,面臨著諸多挑戰,例如算法硬傷、幻覺問題、算力陷阱、 AI 公平性等等。
* 算法硬傷:DeepSeek 之所以備受青睞歸因于開源和低價,其依托的「混合專家模式(MoE)」通過拆分神經網絡降低算力門檻,卻在醫療場景暴露局限性:其一,無法支持多模式會診,面對復雜病例時「單專家決策」易漏診;其二,為維持算力會在線隨機釋放數據,可能導致關鍵信息(如過敏史、手術史)丟失,埋下診療隱患。

MoE 模式工作流程
* 幻覺問題:DeepSeek 當前版本的幻覺率最高達 50%,雖新版本預計降至 20% 以下,但在醫療場景中仍需警惕。我們通過「三重驗證機制」(算法初篩+醫生復核+知識庫比對)降低風險,但增加了診療的時間成本。
* 算力陷阱:小型算力中心的電力消耗已令人咋舌,而訓練更復雜的醫療大模型需持續投入。
* AI 公平性:頭部醫院憑借資源優勢壟斷先進模型,可能加劇「數字鴻溝」。
醫療評判標準重構:從「三甲標準」到「六要素競爭」
在醫療領域部署大模型,遠比想象中復雜。國家衛健委原本希望通過 AI 緩解醫療資源不平衡的問題,但我們部署三個月后發現,結果適得其反 —— 大模型不但沒有改善醫療資源不平衡,反而正在重塑三甲醫院的競爭格局。
傳統三甲醫院的評價標準是「名醫、設備、硬件環境」,但大模型時代新增了三大門檻:
首先是強大的算力。長庚醫院曾以北京市醫療口第二的算力規模,仍難以支撐長期訓練。啟動小型算力中心時,甚至會導致半棟樓停電;
其次是一流的數據治理工程師。醫療數據涉及電子病歷、影像、檢驗等多類型,需清洗、標注、結構化處理。我們一輪數據治理投入 500 萬,效果卻不顯著;
最后是一流的算法工程師。需根據醫療場景定制算法,解決「黑箱」問題與「幻覺」識別。
智慧醫療:數據驅動的醫療模式革新
如下圖所示,自 1950 年以來,每 10 億美元研發投入獲得批準的新藥數量幾乎每 9 年減少一半,該趨勢在 60 年間非常穩定,這一現象被稱為制藥行業的反摩爾定律(Eroom’s Law)。新藥的開發成本越來越高,藥物研發面臨著嚴重的生產力危機。

制藥行業趨勢
并非制藥行業,整個醫療行業亦是如此。如下圖所示,據 2018 年統計,中國三甲醫院數量占全國的 7.63%,但卻承擔著全國 50.97% 的門診量。醫療資源分配不均、診療效率低、人口老齡化帶來的疾病譜變化壓力等一系列問題顯現,所以在智慧醫療時代,AI 加速醫療變革刻不容緩。

2018 年我國醫療資源與診斷需求情況
(單位:家, 億人,%),來源:國家衛健委(前瞻產業研究院整理)
傳統邏輯回歸轉向算法為基準
在臨床和制藥領域擁抱 AI 的趨勢下,傳統邏輯回歸雖能用于臨床科研但存在顯著不足。以定量評估長期空氣污染與心肌纖維化相關性研究為例,傳統方法通常收集社會人口學特征、生物標記物及影像學報告(非影像組學),將 PM2.5 、 PM10 等變量納入模型,分析其與疾病(如形體纖維化)的相關性。
然而,這類上世紀 70 年代以來的相關分析存在根本性缺陷:醫學研究需要探尋因果性,而傳統方法僅能發現預設變量的相關性,無法找到未被預先篩選進模型的新危險因素,陷入「雞與蛋」的循環悖論。此外,傳統相關性分析難以處理變量交互作用,通常只能分析兩三個因素的交互,無法容納成百上千的變量,也無法直接接入影像數據。
與之對比,算法分析具備顯著優勢:既能處理多變量交互,又能納入海量數據(包括影像),且通過對 Token 的反復訓練(運行 1 萬次甚至 1 億次),若某危險因素持續出現,即可視為「因果性」,更接近醫學研究所需的因果關系。
醫療 AI 的 4 要素重構:場景優先的資源分配
智慧醫療即利用現代信息技術來改善和提升醫療服務和管理的一種新型醫療模式,旨在提高醫療效率、降低醫療成本,并改善患者的就醫體驗。其核心基座由大數據、云計算、物聯網、 AI 構成。
在傳統認知中,人工智能的三要素是算法、算力、數據,但在醫療場景中,我們提出「四要素理論」即算法、算力、數據、應用場景,各自所占比重分別為 10% 、 30% 、 40% 、 20% 。由于算法國內外差距不大,且大部分開源,所以其在醫療 AI 要素中占比最低;算力方面可通過云算力租賃緩解壓力;應用場景作為輔助,提供語義將臨床需求轉化為模型可理解的「任務」。由此我們發現「數據」才是決定性因素。中國醫療數據量全球領先,但電子化率低,反而成為「未開采的金礦」。預計到 2028 年,全球傳統結構化醫療數據的增長將難以滿足大模型需求(數據采集始于 1550 年),而中國因歷史數據未完全信息化,將成為全球醫療研發的核心數據基地。
醫療數據訓練的兩條途徑
許多人對大模型的訓練存在疑問,比如是否能直接拿醫院數據進行訓練,而根據經驗,這種做法是不可行的。大模型的訓練需要走兩條途徑。
首先大模型對數據的要求程度遠超臨床科研。雖然醫院若能將數據治理到可用于臨床科研的程度已屬不易,但大模型訓練對數據的要求更高。這是因為大模型雖具備無監督學習能力,但單純依靠無監督學習如同醫生自然成長為主任醫師,速度太慢,無法滿足實際需求。若想加快訓練速度,就需要為其配備醫生的決策樹,所以不能只是簡單地將數據輸入大模型,而是要對數據進行更深入的處理和優化。
其次,醫院若想直接使用大模型訓練,必須走通「庫+專科庫+專病庫+專項庫」的數據治理模式。這一模式是在融合了天壇醫院等幾家醫院的實踐探索后得出的,被認為是目前比較適合大模型訓練的數據模式。這種分層級的數據治理結構,能夠更有針對性地為大模型提供高質量、系統化的數據,從而提升大模型訓練的效果和效率。

專庫建設示例圖
心血管與糖尿病研究:數據驅動的創新范本
最后淺談一下我們基于智慧醫療所做的 2 個研究。
心血管 AI:從「可穿戴設備」到「全心臟模型」
根據 Statista 預計的 2025 年全球智慧醫療市場規模分布顯示,心血管領域占據四分之一,是最大的細分市場。數字化貫穿心血管疾病的急性期和康復期始終。
第一代 Apple Watch 推出后,其單導聯就實現了超越十二導聯的精準預測,能夠識別佩戴者的心房顫動(AFib)及其他類型的心律不齊,實現了基層醫療創新。基于這一啟發,我們團隊提出猜想「既然基于可穿戴設備的心電圖(ECG)波形可以早期預測心律失常,是否其他沒有 ECG 功能的可穿戴設備僅通過心率也可達到同樣效果?」經過一系列驗證,我們發現其他設備也能達到同樣效果,且準確率高達 99.67% 。我們團隊收集了普通運動手環的 24 小時內每分鐘心跳次數來預測心率失常時長。

不同模型基于 3 種 ECG 的對比
更進一步,我們提出了第二個猜想「除了 ECG 波形和心率之外可以早期預測心律失常,心臟的 4 個腔室的收縮/舒張是否參與了心律失常,如果有,是否可以預測?」經過我們再次驗證,整合了心臟血管、神經、肌肉等多維度數據的「全心臟模型」,可通過算法「打包」心臟。最終結果表明,整合所有心臟功能數據預測心律失常風險,可實現最長 15 年的發病風險精確預測,相關成果發表于 JACC 子刊(影響因子 24+)。
* 論文名稱:AI-Enabled CT Cardiac Chamber Volumetry Predicts Atrial Fibrillation and Stroke Comparable to MRI
* 論文地址:??https://www.jacc.org/doi/abs/10.1016/j.jacadv.2024.101300??

對于心房顫動(AF)的長期預測 (15 年內)
糖尿病研究:從「并發癥譜」到「因果機制」
另一個研究是基于大模型做的疾病網絡分析。此前人們認為早發性糖尿病(40 歲前發病)病情比正常發病更輕,比如 20 歲發病者 30 歲時可能血壓、血脂正常且無并發癥,而 40 歲發病者 50 歲時可能指標異常并伴有其他疾病。但通過對全身系統的糖尿病并發癥譜系研究發現,早發性糖尿病的并發癥系統交互作用更密集,存在向量通路關聯,這與人們的固有認知不同。

早發型 2 型糖尿病并發癥的特征譜系
(左:早發性糖尿病;右:正常發現糖尿病;每個不同顏色的小圈代表不同的系統)
未來展望:數據智能時代的醫療新范式
近年來,中國醫療 AI 正處在提速階段。正如李國杰院士所言「現在人類處于信息時代的智能化階段,正在向智能時代邁進,智能化科研范式順應而生,可以成為「第五科研范式」。對時代的認識不能犯錯誤,錯過時代轉變機遇將遭受歷史性的降維打擊」。
在未來,我們需要在以下方向發力:
* 醫生層面:未來數據是必然趨勢,跨學科合作(醫工結合)是用數據開展創新研究的必要條件,培養「醫療+數據」兩棲人才是重中之重。醫生需掌握一定的 AI 知識(如模型評估、數據解讀),以便更好地與算法工程師,數據科學家之間的合作,提高 AI 在醫療保健的應用效果。
* 算法層面:如今數據驅動面臨著訓練費用高昂這一大困境。未來我們期望能夠研發更貼合醫療場景的輕量級模型,降低算力門檻,并且提高算法的臨床應用的可解釋性及信任度,特別是增加醫生和患者對 AI 的接受度,讓 AI 融入醫療。
* 醫院層面:當沒有好的研究思路,對創新性一籌莫展之際,不妨從數據入手,并善用最新信息科學研究手段,所以醫院應鼓勵并給予大力支持,科研數據機房要配備相應的計算、存儲、網絡、安全等基礎設施建設,為數據層面的醫療創新提供關鍵服務。
大模型雖不是萬能藥,但其背后的數據思維正在重塑醫療本質。當我們真正學會用數據講故事,用算法找答案之時,將「數據智能+醫療本質」深度融合,才能在醫療創新中占據先機,讓智慧醫療真正服務患者、回饋社會。
關于李棟教授
李棟教授,醫學博士,國際知名的醫學數據科學專家,現任清華大學附屬北京清華長庚醫院醫學數據科學中心主任、清華大學生物工程特聘教授。李棟教授曾在加州大學洛杉磯分校 Harbor 醫療中心擔任首位華裔臨床研究中心主任,并曾受聘為四川大學華西醫院特聘教授。

李棟教授于國際頂尖學術期刊上發表了 100 余篇 SCI 論文,據統計在過去 5 年內總被引用近 4 千次,他還發表 220 余篇學術會議摘要。此外,他曾應邀進行過 40 余次學術講座,參與編寫了 4 本學術專著,并擁有 2 項發明專利。
其研究領域涵蓋廣泛,主要負責包括臨床研究設計,衡量與評價,建模分析、醫療數據挖掘,以及人工智能在醫療中的應用。他在領導臨床科研團隊進行醫療大數據挖掘和開發智能醫療決策分析系統方面擁有豐富的經驗,是該領域公認的權威。

















